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14.7 Fonctions harmoniques et mouvement brownien 


Partie I 


Intégration 


Chapitre 1 


Espaces mesurés 


L'idée de départ de la théorie de la mesure est d’assigner un nombre réel positif (la mesure 
de ce sous-ensemble) à chaque sous-ensemble d’un ensemble donné, de manière à satisfaire 
certaines propriétés naturelles d’additivité (la mesure d’une réunion disjointe doit être la 
somme des mesures). Pour des raisons profondes, il n’est pas possible en général de définir 
la mesure de n’importe quel sous-ensemble, et on doit se restreindre à une certaine classe 
(tribu) de sous-ensembles, appelés les sous-ensembles mesurables : un ensemble muni d’une 
tribu est appelé espace mesurable. Ce chapitre introduit les notions fondamentales de tribu 
(= famille des ensembles mesurables), de mesure sur un espace mesurable, et de fonctions 
mesurables, qui sont les fonctions dont on saura plus tard définir l'intégrale. Le dernier 
paragraphe énonce une forme du lemme de classe monotone, qui joue un rôle très important 
à la fois en théorie de la mesure et en théorie des probabilités. 


1.1 Ensembles mesurables 


Définition 1.1.1 Soit E un ensemble quelconque. Une tribu (ou o-algèbre) sur E est une 
famille À de parties de E telle que: 


ÜEEA; 
lü) AEAS AEA; 


(iii) Si A, € A pour tout n € N, on a aussi © An E À: 
nEN 
Les éléments de A sont appelés parties mesurables, ou parfois A-mesurables s’il y a ambiguité. 


On dit que (E, A) est un espace mesurable. 


Enonçons quelques conséquences de la définition : 
(1) Se À 


(2) Si À, € À pour tout n € N, on a aussi N An € À. 


nEN 
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(3) Puisqu’on peut toujours prendre À, = Ø pour n assez grand, la propriété (iii) entraîne 
que À est stable par réunions finies (et de même par intersection finies). 


Exemples. 
°A=P(E); 
e A = {Ø, E} est la tribu triviale ; 


e l’ensemble des parties de Æ qui sont (au plus) dénombrables ou dont le complémentaire 
est (au plus) dénombrable forme une tribu sur E. 


Pour donner des exemples plus intéressants, on remarque qu’une intersection quelconque 
de tribus est encore une tribu. Ceci conduit à la définition suivante. 


Définition 1.1.2 SoitC un sous-ensemble de P(E). Il existe alors une plus petite tribu sur 
E qui contienne C. Cette tribu notée o(C) peut être définie par 


Ce (0): À 


A tribu,CCA 


o(C) est appelée la tribu engendrée par C. 


Tribu borélienne. Pour donner un premier exemple de l'intérêt de la notion de tribu 
engendrée, considérons le cas où E est un espace topologique. 


Définition 1.1.3 Supposons que E est un espace topologique, et soit © la classe des ouverts 
de E. La tribu o(O) est appelée tribu borélienne et notée B(E). 


La tribu borélienne est donc la plus petite tribu qui contienne tous les ouverts de Æ. Les 
éléments de B(E) sont appelés boréliens de Æ. 

Dans la suite, à chaque fois que l’on considérera un espace topologique, par exemple R 
ou R, on supposera sauf indication du contraire qu’il est muni de sa tribu borélienne. 














Exercice. Vérifier que la tribu B(R) est aussi engendrée par les intervalles Ja, b|, a,b € R, 
a < b, ou par les intervalles | — æ, a|, a € R, ou encore les intervalles | — æ, af, a € Q (on 
peut aussi remplacer intervalles ouverts par intervalles fermés). 





Tribu-produit. Un deuxième exemple important de la notion de tribu engendrée est la 
tribu-produit. 


Définition 1.1.4 Soient (E1, A1) et (E2, A2) deux espaces mesurables. La tribu-produit est 
la tribu sur E X Es définie par 


À ® A = o(A; x Ás; À; E A1, A E A}. 


Exercice. Vérifier que 
B(R°) = B(R) & B(R). 
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1.2 Mesures positives 
Soit (E, A) un espace mesurable. 


Définition 1.2.1 Une mesure positive sur (E, A) est une application u : A — [0, œ] qui 
vérifie les propriétés suivantes: 


i) 2) = 0 ; 
(ii) Pour toute famille (A,)hen de parties mesurables disjointes, 


a Uaj Sata). 


nEN neN 


Remarquons qu'il est important d'autoriser la valeur +00. La propriété (ii) est appelée 
o-additivité. Elle contient évidemment le cas particulier où les À, sont vides à partir d’un 
certain rang, ce qui donne la propriété d’additivité finie. 


Propriétés. 
(1) Si AC B, (A) < u(B) et si de plus (A) < oo, 
H(B\A) = (B) — (A); 


(2) Si A, BE À, 
H(A) + u(B) = (AU B) +u(ANB); 


(3) Si An € A et À, C Ann, 


((] 4%) = lim f #4); 


n—Co 
nEN 


(4) Si Bn E A et Bayı C Bn, et si u(Bo) < œ, 


HNES lim B 


nEN ER 
(5) Si A, € À, 
a(l) An) < X u(n). 
nEN nEN 


Démontrons seulement (3),(4) et (5). Pour (3), on pose Co = Ao et pour tout n > 1, 
Cn = An\An-1 
de sorte que UA, = UC,. Puisque les C, sont disjoints, 


u|] An) = ul] Ca) = X MCh) = Jim 1 DAC) = lim 1 H(Aw). 


nEN neEN nEN 
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Pour (4), on pose An = Bo\Bn pour tout n, de sorte que la suite (An) est croissante. 


(Bo) — MIR Ba) = H(Bo\ N Ba) = a(l An) = lim Î (An) = lim f (u(Bo) — u(Bna)). 


n— 00 n—00 
nEN nEN nEN 


La condition u(Bo) < œ est utilisée notamment pour écrire u(A,) = (Bo) — u( Bn). 
Enfin, pour (5), on pose Co = Ao puis pour tout n > 1, 


n—1 
Cn = An\ (] Ar- 
k=0 


Les ensembles Ca sont disjoints et donc 
a(l) An) = a(l Cn) = X uC) = X u(n). 
nEN nEN nEN nEN 
Exemples. 
(1) Si E =N, et A = P(N), la mesure de comptage est définie par 
u(A) = Card(A). 


(On peut définir plus généralement la mesure de comptage sur (E,P(E)) lorsque E est 
quelconque.) Cet exemple permet de voir que la condition u(Bo) < œœ est nécessaire dans 
la propriété (4) ci-dessus : en prenant 


B, = {n,n+1,n+2,...} 
on a u(Bn) = œ alors que NB, = Ø et donc u(NB,) = 0. 
(2) Soit (E, A) quelconque et soit x € E. La mesure ô, définie par 


1 size À 
A)=1 = ; 
x (A) alz) T six éA 
est appelée mesure de Dirac au point x. Plus généralement, si £n, n € N sont des points de 
E et an € [0, œ] on peut considérer la mesure à &nôz, définie par 


S An0xn )(À) En ba (82 (A) = >p AnlA(Zn)- 


(3) Mesure de Lebesgue. Il existe une unique mesure positive sur (R, B(R)), notée À, telle 
que pour tout intervalle ouvert |a, b[ de R on ait A(]a, b[) = b — a. L'existence et l’unicité de 
cette mesure seront établies plus loin. 














Définitions. 
e est dite finie si u(E) < (la quantité u( E) est la masse totale de u). 
e u est une mesure de probabilité si u(E) = 1. 
e u est dite o-finie s’il existe une suite croissante de parties mesurables E, telles que 
E = © En et u(En) < œ pour tout n. 
nEN 
e x € E est un atome de y si u({x}) > 0 (on suppose que {x} € À). 


e La mesure y est dite diffuse si elle n’a pas d’atomes. 
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1.3 Fonctions mesurables 


Définition 1.3.1 Soient (E,A) et (F,B) deux espaces mesurables. Une application f : 
E — F est dite mesurable si 


VBeB. f'(B) €A. 


Lorsque E et F sont des espaces topologiques munis de leurs tribus boréliennes, on dit aussi 
que f est borélienne. 


Proposition 1.3.1 La composition de deux applications mesurables est encore mesurable. 
C’est immédiat en écrivant (g o f) 1(C) = f7 t(g71(C)). 


Proposition 1.3.2 Pour que f soit mesurable, il suffit qu'il existe une sous-classe C de B 
telle que o(C) = B et telle que la propriété f !(B) € A soit vraie pour tout B € C. 


Preuve. Soit 
G={BeB:f (B) € A}. 


Alors il est facile de vérifier que G est une tribu. Par hypothèse C C G. Il en découle que G 
contient o (C) = B, d’où le résultat recherché. oO 








Exemples. (1) Dans le cas où (F, B) = (R, B(R)), il suffit pour montrer que f est mesurable 
d'établir que les ensembles f~+(]a, b[), ou même les f-1(] — œo, af) sont mesurables. 

(2) Dans le cas où E et F sont des espaces topologiques munis de leurs tribus boréliennes, 
toute application continue est aussi mesurable (prendre pour C la classe des ouverts de F). 


Opérations sur les fonctions mesurables. 


Lemme 1.3.3 Soient fı : (E, A) — (F, B1) et fa: (E, A) — (Fz, B2) deux applications 
mesurables. Alors l'application produit f : (E, A) — (F; x F5, Bı @ B2) définie par f(x) = 
(fil), falx)) est aussi mesurable. 


Preuve. On applique la dernière proposition en prenant 


C= {B x Bə; Bı € Bı, B2 € B2}. 











Puisque f-1(B; x B2) = fI (B1) A f3 (B2) € A on obtient immédiatement le résultat. 


Remarque. La réciproque de la proposition (si f est mesurable, fı et fọ le sont aussi) est 
vraie et aussi facile. 








Corollaire 1.3.4 Si f,g : (E, A) — (R, B(R)) sont mesurables, alors les fonctions f + g, 
fg, inf(f,g), ft = sup(f,0), f7 = sup(—-f,0) sont mesurables. 
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La démonstration est facile : par exemple f + g est la composée des deux applications 
x — (f(x), g(x)) et (a,b) — a + b qui sont mesurables, la seconde parce que continue. 











Rappelons que si (an) est une suite d'éléments de R = R U {—c, +}, on définit 


limsup a, = lim | (su ax) , liminfa, = lim Î (inf ar), 





les limites existant dans R. Alors, limsupa, et lim inf a, sont respectivement la plus grande 
et la plus petite valeur d’adhérence de la suite (a). 





Proposition 1.3.5 Si f, est une suite de fonctions mesurables de E dans R, alors 
SUP fn ; inf fn , limsup fn , liminf fn 


sont aussi mesurables. En particulier si la suite fn converge simplement, sa limite lim fn est 
mesurable. En général, l’ensemble {x € E : lim f,(x) existe} est mesurable. 





Preuve. Soit f(x) = inf f,(x). Il suffit de montrer que pour tout a € R, f”-!([-00, al) € A. 
Or 


F (Iso, al) = {2 : inf fala) < a} = (Jie : fale) < a} 


d’où le résultat. On traite de même le cas de sup fn. 
Il en découle que 


liminf f, = sup (inf fe) 


n>0 


est mesurable. 
Pour la dernière assertion, on écrit 


{x € E:limf,(x) existe} = {x € E : liminf f,(x) = lim sup f,(x)} = GHA) 


si G est l'application mesurable G(x) = (lim inf fn (x), lim sup f,(x)) et A désigne la diagonale 
de R?, qui est mesurable parce que fermée. 

















Notion de mesure-image. 


Définition 1.3.2 Soit f : (E, A) — (F,B) une application mesurable, et soit u une mesure 
positive sur (E, A). La mesure-image de u par f, notée f(u) est la mesure positive sur (F, B) 
définie par 


Il est facile de voir que la dernière formule définit bien une mesure sur (F, B). Les mesures 
u et f(u) ont même masse totale, mais il peut arriver que y soit o-finie sans que f (p) le soit. 


14 


1.4 Classe monotone 

Définition 1.4.1 Un sous-ensemble M de P(E) est appelé classe monotone si 
(ÿ EE M; 
(ii) Si A, BE M et AC B, alors B\A € M ; 


(iii) Si An E M et An C Anı, alors (JAn E M. 


Toute tribu est aussi une classe monotone. Comme dans le cas des tribus, on voit 
immédiatement que toute intersection de classes monotones est encore une classe monotone. 
Si C est une partie quelconque de P(E), on peut donc définir la classe monotone engendrée 
par C, notée M (C), en posant 


M(C) = N M. 


M classe monotone, CCM 


Théorème 1.4.1 (Lemme de classe monotone) Si C C P(E) est stable par intersec- 
tions finies, alors M(C) = o(C). 


Preuve. Puisque toute tribu est une classe monotone, il est clair qu’on a M(C) C o(C). 
Pour établir l'inclusion inverse, il suffit de montrer que M(C) est une tribu. Or une classe 
monotone est une tribu si et seulement si elle est stable par intersections finies (en effet, 
par passage au complémentaire, elle sera alors stable par réunion finies, puis par passage 
à la limite croissant par réunion dénombrable). Montrons donc que M(C) est stable par 
intersections finies. 

Soit A € C fixé. Posons 


Mı={BE M(C): ANB e M(C)}. 


Puisque C est stable par intersections finies, il est clair que C C M1. Vérifions ensuite que 
M, est une classe monotone: 


e E € M, est immédiat. 


e Si B,B' € Met B C B', ona AN (B'\B) = (ANB')\\(ANB) € M(C) et donc 
B'\B € Mi. 


e Si B, € M; pour tout n et la suite B, croît, on a A N (UB) = U(AN Ba) € M(C) et 
donc UB, € Mı. 


Puisque M, est une classe monotone qui contient C, M; contient aussi M(C). On a donc 
montré 


VA €C, YB € M(C), AN B € M(C). 
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Ce n’est pas encore le résultat recherché, mais on peut appliquer la même idée une seconde 
fois. Précisément, on fixe maintenant B € M(C), et on pose 


M ={AE MC): ANBE M(C)}. 


D’après la première étape de la preuve, C C Mə. En reprenant exactement les mêmes 
arguments que dans la première étape, on montre que M: est une classe monotone. Il en 
découle que M(C) € Mb, ce qui montre bien que M(C) est stable par intersections finies et 
termine la preuve. 














Corollaire 1.4.2 Soient u etv deux mesures sur (E, A). Supposons qu'il existe une classe 
C C À stable par intersections finies, telle que o(C) = À et u(A) = v(A) pour tout AEC. 
(1) Si u(E) = v(E) < œ, on au = v. 
(2) S'il existe une suite croissante de parties E, € C telles que E = UE, et u(En) = 
v(En) <œ, on au = y. 


Preuve. (1) Soit G = {A € A : u(A) = v(A)}. Par hypothèse, C C G. Par ailleurs, on 
vérifie aisément que G est une classe monotone : par exemple, si ABEGe&t AC B,ona 
u(B\A) = u(B) — (A) = v(B) — v(A) = v(B\A), et donc B\A € E (noter qu’on utilise ici 
le fait que y et v sont finies). 

On conclut que G contient M(C) = o(C) = A (la première égalité d’après le théorème 
de classe monotone, la seconde par hypothèse). Donc G = A, c'est-à-dire u = v. 
(2) Notons, pour tout n, un la restriction de u à En et Vn la restriction de v à En : 


VAE À, (A) = (AN En), va(A) = v(ANE;). 


On peut appliquer la partie (1) à un et Vn, et on trouve Un = Vn. Finalement, en utilisant 
les propriétés de limite croissante des mesures, pour tout À € A, 


(4) = lim Î (AN En) = lim fÙ (AN En) = v(A). 


Conséquence. Unicité de la mesure de Lebesgue. Il existe au plus une mesure À sur 
(R, B(R)) telle que pour tout intervalle ouvert non vide Ja, b|, on ait A(Ja, b|) = b — a. En 
effet, si À est une seconde mesure ayant la même propriété, on peut appliquer à À et A la 
partie (2) du corollaire précédent, en prenant pour C la classe des intervalles ouverts (dont 
on sait qu’elle engendre la tribu borélienne) et E, =] — n, n| pour tout n. 














De la même façon, on déduit du corollaire précédent qu’une mesure finie u sur R est 
caractérisée par les valeurs de u(] — œo, a]) pour tout a € R. 
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Chapitre 2 


Intégration par rapport à une mesure 


Le premier objectif de ce chapitre est de construire l'intégrale de fonctions mesurables. La 
définition est facile pour les fonctions dites étagées, qui ne prennent qu’un nombre fini de 
valeurs. Ensuite l'intégrale d’une fonction mesurable positive est définie comme le supremum 
des intégrales des fonctions étagées qui la minorent. Pour les fonctions de signe quelconque, 
on raisonne par linéarité en se limitant aux fonctions dites intégrables, dont la valeur absolue 
est d’intégrale finie. Une fois construite l'intégrale, on établit les trois grands théorèmes de 
convergence de la théorie, à savoir le théorème de convergence monotone, le lemme de Fatou 
et le théorème de convergence dominée. Ces trois énoncés visent à donner des conditions 
assurant que l'intégrale de la limite d’une suite de fonctions est la limite des intégrales de 
ces fonctions. Le dernier paragraphe donne des applications importantes à la continuité ou 
la dérivabilité d’intégrales dépendant d’un paramètre. 


2.1 Intégration de fonctions positives 


On se donne un espace mesuré, c’est-à-dire un espace mesurable (E, A) muni d’une mesure 


bi. 
Fonctions étagées. Une fonction mesurable f à valeurs dans R est dite étagée si elle ne 
prend qu’un nombre fini de valeurs. Si &1,a2,...,a, sont les valeurs prises par f, qu’on 


peut supposer rangées par ordre croissant @1 < Q2 < +- < Qn, On à alors 
n 
f(x) = J alale) 
i=1 


où, pour chaque à € {1,...,n}, À; = f l({a;}) € A. L'écriture précédente sera appelée 
lécriture canonique de f. 





Définition 2.1.1 Supposons f à valeurs dans R}. L'intégrale de f par rapport à u est alors 


définie par 
fio = Yo p(A:) 
i=1 


avec la convention 0.00 = 0 dans le cas où a; = 0 et u( Ai) = œ. 
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On a a priori f fdu € [0, o0]. 
Supposons qu’on ait une autre écriture de f sous la forme 


J= 56; lg, 
j=1 


les ensembles mesurables B; formant toujours une partition de Æ mais les nombres 6; n'étant 
plus nécessairement distincts. Alors il est facile de vérifier qu’on a aussi 


fra sus 


j=1 


En effet, pour chaque à € {1,...,n}, A; doit être la réunion disjointe des ensembles B; pour 
les indices j tels que 5; = a;. Il suffit alors d'utiliser la propriété d’additivité de la mesure 
pour écrire 


{j:bj=ai} 
ce qui conduit au résultat annoncé. 


Propriétés. Soient f et g deux fonctions étagées positives. 


(1) Pour tous a,b > 0, 
fit+ vojan = a [fau +6 | odp. 


fians foan 


f = X ail4, 9 5 N alu 
i=1 k=1 


les écritures canoniques de f et g. En écrivant chaque A; comme la réunion disjointe des 
ensembles À; N A}, k € {1,..., m}, et de même pour chaque Aj, on voit qu’on peut écrire 


p p 
f= 56; 1840 Ÿ 18, 
j=1 j=1 


avec les mêmes ensembles mesurables disjoints B; (mais les nombres f;, resp. yj, non 
nécessairement distincts). D’après la remarque suivant la définition, on a 


fra sus). Jou= ue) 


et de même f (af + bg)du = } $- (a8; + by) u(B;), d'où le résultat voulu. 


(2) Si f < g, 


Preuve. (1) Soient 
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(2) On applique (1) en écrivant 


J'oiu= [ran+ |o- Panz f tan 


Notons E, l’espace des fonctions étagées positives. 














Définition 2.1.2 Soit f : E — [0,00] une fonction mesurable. On pose 


Jra- sup fran 
hEE+ h<f 


La propriété (2) ci-dessus montre que cette définition est cohérente avec la précédente 
quand f est étagée. 
On notera indifféremment 


Jran= f foda) = | Foula) 


et on trouve parfois la notation (u, f) ou même u( f). 


Propriétés. 

(1) Si f < g, f fdu < f gdu (évident sur la définition) 

(2) Si ux € E : f(x) > 0}) = 0, alors f fdu = 0. (en effet il suffit de le vérifier lorsque 
f est étagée, mais alors c’est évident sur la définition) 


Théorème 2.1.1 (Théorème de convergence monotone) Soit (fn) une suite croissante 
de fonctions mesurables positives (à valeurs dans [0, æ|), et soit f = lim Î fn. Alors 


J fan = imt f tadu 
Preuve. D’après la propriété (1) ci-dessus, on a 
fiou im 1 f tadu 


et il suffit donc d'établir l’autre inégalité. Pour cela, choisissons une fonction étagée positive 


h= Xai 14, 
i=1 
avec h < f. Soit a € [0,1], et 
En = {x E€ E : ah(x) < falx)}. 


Alors E, est mesurable. De plus en utilisant le fait que f» croît vers f, et la condition a < 1, 
on voit que Æ est la réunion croissante des ensembles En. 
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Ensuite on remarque qu’on a l'inégalité f, > alr,h, d’où 


J'dnz fashau= a) onain B). 


i=1 


Puisque E, | E on a AN En T A; et u(A;NE,) T u(A;) quand n — co, d’après les propriétés 
élémentaires des mesures. En passant à la limite croissante il vient 


im 1 f fdu > a D au(4) =a f hdp 
i=1 


En faisant tendre a vers 1, on trouve 


lim Î ftu > fran 
Comme f fdp est définie par le supremum des quantités de droite lorsque h décrit l’ensemble 
des fonctions étagées positives majorées par f, on obtient bien l'inégalité recherchée. 0 


Dans toute la suite “fonction mesurable positive” signifie fonction mesurable à valeurs 
dans [0, o0]. 


Proposition 2.1.2 (1) Soit f une fonction mesurable positive. Il existe une suite croissante 


(fn) de fonctions étagées positives telle que fn T f. 
(2) Si f et g sont mesurables positives et a,b € R4, 


fit+ todu=a f fau +6 f odu 


(3) Si (fn) est une suite quelconque de fonctions mesurables positives, 
JET | fdn 


Preuve. (1) Pour tout n > 1 et tout i € {0,1,...,n2" — 1}, posons 





An = {rE E: fl£)>n} 
Bni = {x € E: i2™ < f(x) < (i+ 1)27”}. 
Soit ensuite f» la fonction étagée 


n2” —1 


i 


i=0 


On vérifie aisément que f,(x) Î f(x) pour tout x € E. 
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(2) On construit deux suites de fonctions étagées positives (fn), (gn) avec fn T F, 9n Ù 9. 
Alors on a aussi af, + bg, T af + bg, et en utilisant le théorème de convergence monotone 
et les propriétés de l'intégrale des fonctions étagées, 


Jar +b)du = an 1 Jar +ag)du = in 1 (a f fadno [md <a f rau+v f gdp. 


(3) Cette assertion découle de (2) (cas d’une somme finie) et du théorème de convergence 
monotone. 














Remarque. Considérons le cas particulier où E = N et y est la mesure de comptage. Alors 


il est facile de voir que 
fim- tH 


kEN 


et (3) redonne la propriété bien connue énonçant que pour toute suite double (a,,,) de réels 
positifs, 

D (Dane) = D (Dane). 

kEN neN nEeN  kEN 


Corollaire 2.1.3 Soit f mesurable positive, et pour tout À € A, soit 


vA) = | rar du "E | f du. 


Alors v est une mesure positive sur (E, A), appelée mesure de densité f par rapport à u, et 
notée v = f - lu. 


Preuve. Il est immédiat que v(S) = 0. Par ailleurs, si (A„) est une suite d’ensembles 
mesurables disjoints, 


(Ua) f/u fdu= 


nEN nEN nEN 


Ju fdu = Sv(4,) 


en utilisant la propriété (3) ci-dessus. oO 
Remarque. On a (A) = 0 = v(A) = f 1af du = 0. 
On dit qu’une propriété est vraie u presque partout, ou u p.p. ou même simplement 


p.p. s’il n’y a pas ambiguïté, si elle est vraie en dehors d’un ensemble de mesure nulle. Par 
exemple si f et g sont deux fonctions mesurables, f = g p.p. signifie 


u({r E E : f(x) # g(x)}) = 0. 


Proposition 2.1.4 Soit f une fonction mesurable positive. 
(1) Pour tout a > 0, 


NX E E: fl) 2 a) <= | jdn 
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(2) On a 

Jru<osf<s p.p. 
(3) Ona 

Juve = p.p. 


(4) Si g est une autre fonction mesurable positive, 


f=g pp | fdn= | odn 
Preuve. (1) Posons A, = {x € E : f(x) > a}. Alors f > al4, et donc 


fton > Jus. du = au( Aa). 


(2) Pour tout n > 1, soit A, = {x E€ E : f(x) > n} et soit Aœ = {x E€ E : f(x) = œ}. 
Alors, en utilisant (1), 


1 
H(Ax) = u( N An) = lim | 4(4) < lim L f fap =0. 
n— 00 n> n 
n>l 
(3) L’implication < a déjà été vue. Pour =, soit, pour tout n > 1, B, = {L€ E : 
f(x) > n™t}. Alors, d’après (1), 
u(Ba) < n f fau =0 


et donc u(Bn) = 0 ce qui entraîne u({x : f(x) > 0}) = u( © Bn) =0. 
n>1 
(4) Utilisons la notation f V g = sup(f,g) et f Ag = inf(f,g). Alors f V 9 = f Ag p-p., 
d’où 


Je vou [nous furva-r nan [tr nan 


puisque f V g— f Ag=0 p.p. Puisque f A g < f< f Vg, et de même pour g, il en découle 


j J rün- JU vou - fow 


Théorème 2.1.5 (Lemme de Fatou) Soit (fn) une suite quelconque de fonctions mesura- 
bles positives. Alors, 


fom inf f,)du < lim int | Sadu 
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Preuve. On a 
liminf f, = Jim Î (inf h) 


OO 


et donc d’après le théorème de convergence monotone, 


Jmint du = tim 1 f (int du 
Par ailleurs, pour tout entier p > k, 


ior faf 


f Cut h)dn < int | tadu 


En passant à la limite croissante quand k T oo, il vient 


Jim T f (inf fa)du < lim f i f fpd = lim inf I fadh, 


ce qui termine la preuve. H 


ce qui entraîne 


2.2 Fonctions intégrables 





Définition 2.2.1 Soit f : E — R une fonction mesurable. On dit que f est intégrable par 
rapport à u (ou p-intégrable) si 


fifian< o. 


fra ffan- f Fan 


où ft = sup(f,0), resp. f = sup(—f,0) est la partie positive, resp. négative, de f. (Noter 
que ft et fT sont mesurables et que f = f7 — f et|fl= f+ F.) 


Dans ce cas on pose 


Remarque. On a f f*du < [|fldu < œ et de même f f-dp < oo, ce qui montre que la 
définition de f fdu a bien un sens. Dans le cas où f est positive, cette définition coïncide 
bien sûr avec la précédente. 


On note L!(E, A, u) l’espace des fonctions u-intégrables. On utilisera parfois la notation 
L1 (E, A, u) pour les fonctions u-intégrables à valeurs positives. 


Propriétés. 

(a) | f fdul < J |fldu pour f € L'(E, A, p). 

(b) L'(E, A, p) est un espace vectoriel et l'application f — f fdp est une forme linéaire 
sur cet espace vectoriel. 


(c) Si f,g € L'(E, A, u) et f < g, alors f fdu < f gdp. 


23 


(d) Si f,g € L'(E,A,n) et f = g u pp. alors f fdu = f gdp. 


Preuve. (a) On écrit 


{fran =1 f fan- f Fasi f tat fran fitan 


(b) Soit f € LH(E, A, u). Pour a € R, 


f lafldu = lal f 1fidu < oc 


feDin= fafan- [an du a f fan 
et si a < 0, 


Jandu= feiu- fan duo f Fanta f Fan a f fan 


De plus, si f,g € L'(E, A, u), l'inégalité |f + g| < |f| + [gl entraîne que f + g € L!. En 
outre, 





Si a > 0, 





(f+g) -(f+g) =f+g=ft-f +gt-g 
entraîne 
CRT ET =f HFH. 


En utilisant l’additivité de l'intégrale pour les fonctions positives, 


Ju +atau+ | Fant f odn= Ju +oraus fran f otan 


d’où, puisque toutes les intégrales sont finies, 


Je +otau- [+o = | tan- f Fant fo*n- [aan 


ce qui donne bien f (f + g)du = f fdu + f gdp. 

(c) Il suffit d'écrire f gdu = f fdu + f(g — f)dp. 

(d) L'égalité f = g p.p. entraîne f* = gt et fT = g7 p-p. Il suffit alors d'utiliser les 
résultats vus dans le cas des fonctions positives. 0 








Remarque. On combine facilement (c) et (d) pour obtenir que, si f,g € L'(E, A, u) et 
f < gpp, alors f fdu < f gdp. 
Extension au cas complexe. Soit f : E —> C une fonction mesurable (cela équivaut à 
dire que Re(f) et Im(f) sont toutes deux mesurables). On dit que f est intégrable et on 
note f € LE(E, A, p) si 

fifa < se. 
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On pose alors 
Jran= [Redni f Pan 


Les propriétés (a),(b) et (d) ci-dessus restent vraies si L! (E, A, p) est remplacé par LA(E, A, u) 
(pour montrer (a), remarquer que 


[fran sup a ffan 
aeC,|a|=1 


où a- z désigne le produit scalaire dans C identifié à R?). 





Théorème 2.2.1 (Théorème de convergence dominée) Soit (fn) une suite de fonc- 
tions dans L'(E, A, u) (resp. dans LA(E, A, u)). On suppose: 
(1) Il existe une fonction f mesurable à valeurs dans R (resp. dans C) telle que 





fala) — f(x) upp. 





(2) Il existe une fonction g : E — R, mesurable telle que f gdu < œ et pour tout n, 


fa S9 upp. 


Alors f € L'(E, A, u) (resp. f € LA(E, A, u)), et on a 
im f fdn= | du 


im f La — fidu = 0 


et 


Preuve. On suppose d’abord que les hypothèses suivantes plus fortes sont vérifiées: 
(1) Pour tout z € E, 


fn(x) — f(x) 


(2) Il existe une fonction g : E — R4, mesurable telle que f gdu < œœ et pour tout n 
et tout z € E 





f(x) < g(2). 
La propriété f € £! est alors claire puisque |f| < g et f gdu < œo. Ensuite, puisque 


|f — fnl < 2g et |f — fa| — 0, on peut appliquer le lemme de Fatou pour trouver 
iminf | (29 —|f— fal) du > J rm int(29 -= |f — fl) du = 2 | odu. 
Par linéarité de lintégrale, il vient 


2 | gdu —timsup | |f - faldu > 2 | gdm, 
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d’où 
limsup f PA EE 


et donc f |f — faldu — 0. Finalement il suffit d'écrire 


|f tan- fran < f 1f- talan 


Dans le cas général où on suppose seulement (1) et (2), on pose 
A={xeE: falz) — f(x) et pour tout n, |f,(x)| < g(x)}. 
Alors u(A°) = 0, et on peut appliquer la première partie de la preuve aux fonctions 
fax) = 14(2)fal£), f(x) = 14(2)f (2). 


On a f = f P-P., fn = fn p-p. et donc f fadp = f du, f fdp = f fdp et f |fn-— fldp = 
fifa — fldu. Les résultats recherchés découlent du cas où (1) et (2)’ sont vérifiés. oO 





2.3 Intégrales dépendant d’un paramètre 


On se donne un espace métrique (U, d) qui correspond à l’espace des paramètres. Soit une 
application f : U x E — R (ou C). 





Théorème 2.3.1 Soit uo € E. Supposons 
(i) pour tout u EU, l'application x — f(u,x) est mesurable; 
(ii) u(dx) p.p. l'application u — f(u, x) est continue en wo; 
(iii) il existe une fonction g € L} (E, A, u) telle que pour tout u € U, 


f(u, x)| <g(x)  u(dx) p.p. 


Alors la fonction F(u) = f f(u,x)u(dx) est bien définie en tout point u € U et elle est 
continue en ug. 


Preuve. L'hypothèse (iii) entraîne que la fonction x — f(u, x) est intégrable et donc F(u) 
est bien définie. Ensuite, soit (u,),>1 une suite convergeant vers wo. L'hypothèse (ii) assure 
que 

flun £) —> fu), upp. 


Grâce à l'hypothèse de domination (iii), on peut appliquer le théorème de convergence 
dominée, qui donne 


lim f| flun 2) u(dz) = T f(uo, 2) ulda). 


n— OO 
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Exemples. (a) Soit u une mesure diffuse sur (R, B(R)). Si y € L'(R, B(R), u), la fonction 





P= [2 gent = | tole) oe) aan 


est continue. Pour le voir, il suffit d'appliquer le théorème à f(u, x) = 1,_ku(r)y(x), en 
prenant g = |p| et en observant que pour uo € R fixé, la fonction u — f(u, x) est continue 
en uo pour tout x € R\{uo}. 

(b) Transformée de Fourier. Si y € L'(R, B(R), À), la fonction 

















Gta) = | et p(x) (dx) 





est continue sur R. 
(c) Convolution. Soit y € L'(R, B(R), À), et soit h une fonction continue bornée de R 
dans R. Alors la fonction A x y définie sur R par 




















Fe J hu- apan) 


est continue (et bornée). 


Nous passons maintenant à un théorème de dérivabilité sous le signe intégrale, et pour 
cela nous supposons que U = T est un intervalle ouvert de R. Soit à nouveau une application 
f:U x E — R (ou ©). 








Théorème 2.3.2 Soit uo E I. Supposons que 
(i) pour tout u € I, l'application x — f(u, x) est dans L'(E, A, u); 
(ü) (dx) p.p. Vapplication u — f(u,x) est dérivable en uo de dérivée notée 


(iii) il existe une fonction g € L} (E, A, u) telle que pour tout u € T, 
|f (u, x) — f(uo,x)| < g(x)lu — uo) H(dx) p.p. 


Alors la fonction F(u) = f f(u,x)u(dx) est dérivable en uo, de dérivée 
; ð 
Flw) = f Zla) ulda). 
u 


Remarque. A priori la dérivée SF (uo, x) n’est définie (par (ii)) que pour x appartenant 
au complémentaire d’un ensemble de mesure nulle. On peut la prolonger à Æ tout entier 
de manière arbitraire (par exemple par la valeur 0), de façon à définir l'intégrale qui donne 


F'(uo). 


DE 


Preuve. Soit (u,),-1 une suite dans Z\{uo} convergeant vers uo, et soit 


flun: 2) = (uo, €) 


Un — Ug 


PnlT) = 


Grâce à (ii), Yn(x) converge vers of Cuo, £), u(dx) p.p. De plus l’hypothèse (iii) permet 


d'appliquer le théorème de convergence dominée et d’obtenir 
Fun) — F (uo) 


o 
lim S RW L tim f galo) uida) = f Duo) paa), 


Remarque. Dans de nombreuses applications, les hypothèses (ii) et (iii) sont remplacées 
par les hypothèses plus fortes 














(üy u(dx) p.p. l'application u — f(u, x) est dérivable sur T; 
(iii) il existe une fonction g € L} (E, A, u) telle que u(dx) p.p., 


Vuel, ET x)| < g(x). 


(Noter que (ii) (ii) grâce au théorème des accroissements finis.) Sous ces hypothèses, la 


fonction F est dérivable sur Z. D’exercice ci-dessous montre cependant que la forme plus 
précise de l'énoncé du théorème est parfois nécessaire. 


Exemples. (a) Soit y € L'(R, B(R), À) telle que 
EZG] À(dx) < co. 


Alors la transformée de Fourier (u) est dérivable sur R, et 


D'(u) =i Ja y(x) X(dx). 


(b) Soit y € L! (R, B(R), À), et soit h une fonction de R — R une fonction de classe C1, 
bornée ainsi que sa dérivée. Alors la convolution h x y est dérivable sur R, et 
(hx p) =h x g. 
On peut bien sûr itérer. Par exemple si h est de classe C° à support compact, h x & est 
aussi de classe C®. 





















































Exercice. Soit u une mesure diffuse sur (R, B(R)) et soit y € L! (R, B(R), u) telle que 
f Ixp(x)| u(dz) 


F(u) = j E 


Montrer que F est dérivable sur R, de dérivée 


F'(u) = J. (e) ulda) 





Pour tout u € R, on pose 
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Chapitre 3 


Construction de mesures 


Le chapitre précédent partait de la donnée d’une mesure sur un espace mesurable. Nous 
montrons maintenant comment on construit des mesures intéressantes, et particulièrement 
la mesure de Lebesgue. Le premier paragraphe introduit la notion de mesure extérieure, 
vérifiant des propriétés des propriétés plus faibles que celles d’une mesure, et montre com- 
ment à partir d’une mesure extérieure on peut construire une (vraie) mesure sur une tribu 
convenable. Cette approche, qui est celle qu'avait utilisée Lebesgue, permet assez facilement 
de construire la mesure de Lebesgue sur R ou sur R. Nous discutons aussi diverses pro- 
priétés de la mesure de Lebesgue, ainsi que ses liens avec l’intégrale de Riemann. Une autre 
application est l’intégrale de Stieltjes, qui correspond à l’intégrale par rapport à une mesure 
finie arbitraire sur la droite réelle. 











3.1 Mesures extérieures 


Définition 3.1.1 Soit E un ensemble quelconque. Une application u* : P(E) — [0, œ] est 
appelée mesure extérieure si 


(iü) u* est croissante: AC B => p*(A) < (B); 


(iii) u* est o-sous-additive : pour toute suite Ap, k E N d'éléments de P(E), 


a(l Ar) < Xu" (Ar). 


kEN kEN 


Les propriétés d’une mesure extérieure sont moins contraignantes que celles d’une mesure. 
Remarquons cependant qu’une mesure extérieure est définie sur l’ensemble de toutes les 
parties de Æ et non pas seulement sur une tribu. 

Nous verrons plus loin sur des exemples comment on construit des mesures extérieures. 
Notre objectif dans ce paragraphe est de montrer comment à partir d’une mesure extérieure 
u* on construit une mesure sur une tribu M(u*) qui dépend de u*. Dans la suite de cette 
partie, on fixe une mesure extérieure u*. 
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Définition 3.1.2 Une partie B de E est dite u*-mesurable si pour toute partie A de E, 
K“ (A) = (AN B) + u* (AN B9). 
On note M(u*) l’ensemble des parties u*-mesurables. 


Remarque. L'inégalité u*(A) < u*(AN B) + u*(AN B°) est toujours vérifiée par o-sous- 
additivité. Pour vérifier que B est 1*-mesurable, c’est donc l’inégalité inverse qu’il importe 
de vérifier. 


Théorème 3.1.1 (1) M(u*) est une tribu, qui contient toutes les parties B de E telles que 
a (B) = 0. 
(2) La restriction de u* à M(u*) est une mesure. 


Preuve. (1) Notons M = M(u*) pour simplifier. Si u*(B) = 0, l'inégalité 
H*(A) > (AN B°) = p*(A N B) + (AN B’) 


montre aussitôt que B € M. 

Ensuite on voit immédiatement que Ø € M et que M est stable par passage au complé- 
mentaire. Pour terminer la preuve de la partie (1), il reste à montrer que M est stable par 
réunion dénombrable. On commence par établir que M est stable par réunion finie. Soient 
Bı, Bə € M. Alors, pour toute A € P(E), l'hypothèse Bı € M montre que 


u*(AN(B1UB2)) = u*(AN(B1UB2)OB1)+4*(AN(B1UB)OAB$) = u*(AQB1)+4* (ANBA B$). 
Donc en utilisant successivement les propriétés B € M et Bı E M, 


p*(AN (B1 U B2)) + a (AN (B1 U B2)°) 
= W*(AN B1) + (AN BEN Ba) + u*(AN BEN B$) = jé (AN Bi) + u*(AN B$) = p* (A), 


ce qui montre bien que Bı U Ba € M. Etant stable par passage au complémentaire et 
par réunion finie, M est stable par intersection finie. En conséquence, si B, B’ € M, 
B\B = B'A BEM. 

Compte-tenu de cette dernière remarque, il suffit pour compléter la preuve de montrer 
que si les ensembles B € M, k € N sont deux à deux disjoints on a (JB, € M. Pour cela 
on montre par récurrence que pour tout entier m € N et toute partie A de E, 


p'(A) = D (AN Bi) + a (40 (ABE). (3.1) 


k=0 


Pour m = 0, c’est la définition de Bo € M. Pour passer de l’étape m à l'étape m + 1, il 
suffit d'écrire 


“An (Â) = An (AB) Bad (an (A Be) 
= (AN Bms) +H'(AN (A 2i) 
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en utilisant le fait que les Bẹ sont disjoints. On déduit de (3.1) que 


NESDA (AN Bp) + p* an (Ms) 
k=0 


k=0 


et en faisant tendre m vers co, 


u*(A) 


IV 


(AN Bk) + u*(AN (AB) 


WAN (Ùz) +wan (AB). 


k=0 


x 
Il 
(æ 


IV 


OO 


par o-sous-additivité. Cela suffit pour conclure que © By € M. 


k=0 
(2) Notons u la restriction de u* à M. On sait déjà que u(Ø) = 0. Soient Bp, k € M 
des élements disjoints de M. La preuve de (1) montre que pour toute partie À de E, 


*( CEDEX (AN Bk) + u*( an (fx) 


et donc en prenant À = © Bpk, 
k=0 


u*(U Bi) > XO (Bi). 


Comme l'inégalité inverse est aussi vraie par o-sous-additivité, cela termine la preuve. O 








3.2 La mesure de Lebesgue 





Pour toute partie À de R, on définit 


— imf{ (b; = ai) : AC (Jla; bil} 


iEN iEN 


L’infimum porte sur tous les recouvrements dénombrables de À par des intervalles ouverts 
Jai, bil, a; < bi (évidemment il existe toujours de tels recouvrements). 





Théorème 3.2.1 (i) À est une mesure extérieure sur R. 
(ii) La tribu M(à*) contient B(R). 
(iii) Pour tous a < b, A*([a, b]) = à* (Ja, b[) = b — a. 
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La restriction de À* à B(R) (ou à M(à*)) est la mesure de Lebesgue sur R, et sera 
notée simplement À. En conséquence des résultats de la fin du Chapitre 1, c’est l’unique 
mesure sur B(R) qui vérifie la propriété À(]a, b[) = b — a pour tout intervalle Ja, bf. 





Preuve. (i) Il est immédiat que À*(S) = 0 et que À* est croissante. Il reste à établir la 
sous-additivité. Pour cela, on se donne une suite (A, ),en de parties de N. On peut supposer 
A*(An) < œ pour tout n (sinon il n’y a rien à montrer). Soit € > 0. Pour tout n € N, on 


peut trouver une suite d’intervalles lja, b™, ie N tels que 


EA l 
iEN 
et 
(n) * E 
SEE — af) < A*(An) + A 
iEN 
Il suffit alors de remarquer que les intervalles Ja; m „b n) | n € N,i € N forment un recouvre- 
ment dénombrable de la réunion des Ap, et done 


UAD NE — a) < YOA (An) + 2e, 


nEN neN ieN nEN 


d’où le résultat puisque € est arbitraire. 

(iü) Puisque M(X*) est une tribu, il suffit de montrer qu'elle contient une famille qui 
engendre la tribu borélienne, par exemple la famille des intervalles | — co, a], à € R. On 
se donne donc a € R et on pose B =] — æ,a]. Le problème est de vérifier que pour toute 
partie À de R, 











A*(A) > AX (ANA B) + (AN B°). 


Soit (Ja;, bil);en un recouvrement de A, et € > 0. Les intervalles Ja; À à, (b; À a) + e27[ 
recouvrent AN B, et les intervalles Ja; V a, b; V a| recouvrent A N B®. Donc 


A*(AN B) < X (bi ^a) — (a; ^a)) +2, 
icN 
A*(AN B°) < X (bi V a) — (a; V a)). 


iEN 
En faisant la somme on trouve 


A*(AN B) +A*(AN B°) < X (bi — ai) + 2e. 


ieN 
Puisque € était arbitraire, on a 


A*(AN B) +A*(AN B°) < X (bi — ai), 


iEN 


et comme A*(A) est par définition l’infimum des sommes de droite sur tous les recouvrements 
de À, l'inégalité recherchée en découle. 
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(ii) Il est immédiat par définition que 
À*([a, bl) < b — a. 


Pour l'inégalité inverse, supposons que 
[a,b] € |] Jai, bil. 
ieN 
Par compacité, on peut trouver un entier N assez grand tel que 


N 


[a,b] c Jlai, bit. 


i=0 


Un raisonnement élémentaire montre alors que 


Cela donne l’autre inégalité b — a < À'([a,b]). Il est facile de voir enfin que à*(]a, b|) 
(la, b]) (par exemple en observant que A*({a}) = A*({b}) = 0). 


Extension en dimension d. 





On appelle pavé ouvert (resp. fermé) un sous-ensemble P de R? de la forme 





On définit alors pour toute partie A de R? 


X°(4) = inf{ù vol (P) : A c (J Pi} 


iEN iEN 


où l’infimum porte sur tous les recouvrements dénombrables de A par des pavés ouverts. 
On a alors l’analogue suivant du théorème précédent. 





Théorème 3.2.2 (i) X est une mesure extérieure sur R°. 
(ii) La tribu M(X) contient B(R°). 
(iii) Pour tous pavé (ouvert ou fermé) P, X* (P) = vol (P). 
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L 











La restriction de à* à B(R°) (ou à M(X*)) est la mesure de Lebesgue sur Rf, et sera 
notée simplement À. 
Preuve. La preuve de (i) est exactement la même que dans le cas d = 1. Pour (ii), il suffit 
de montrer que si À est un ensemble de la forme 














A=RX-.-XRx]-æ,a|xRXx:--XxR, 


on a À € M(X*) (il est facile de voir que les ensembles de cette forme engendrent la tribu 
B(R°‘)). La démonstration est alors tout à fait semblable à celle du cas d = 1. Enfin pour 
(iii), on se ramène à montrer que si P est un pavé fermé et si 





i=1 


où les P; sont des pavés ouverts, on a 


Cette assertion est laissée en exercice. Oo 


Remarque. On verra plus tard (dans le Chapitre 5) une autre façon de construire la mesure 
de Lebesgue en dimension d à partir du cas de la dimension un. 





On peut se demander si la tribu M(A*) est beaucoup plus grande que la tribu B(R). 
Nous allons voir qu’en un certain sens ces deux tribus ne sont pas très différentes. Nous 
énonçons d’abord une proposition préliminaire. 


Proposition 3.2.3 Soit (E, A, u) un espace mesuré. La classe des parties négligeables est 
par définition 





N = {A € P(E): 3B € A,A C B et p(B) = 0}. 


La tribu complétée de A (par rapport à u) est À = o(AUN). Il existe alors une unique 
mesure sur (E, A) qui prolonge u. 


Preuve. On remarque d’abord que la tribu À peut être obtenue de la manière suivante : si 





B = {A € P(E) : 3B, B' € A,B C AC B' et u(B'\B) = 0} 


on a À = B. En effet on vérifie facilement que B est une tribu. Il est clair que À C B et 
N C B, ce qui entraîne que À C B. Enfin, si A € B, on choisit B et B’ comme dans la 
définition et on remarque que À = BU(A\B), avec B € A et A\B € N. L'inclusion B C À 
en découle. 

Une fois acquise l'égalité À = B, on construit le prolongement de u à À de la manière 
suivante. Si A € A = B, et si B et B' sont comme dans la définition de B ci-dessus, 
on pose u(A) = u(B) = u(B'). Cela ne dépend pas du choix de B et B’ : si B, B' est 
un autre choix, on a à la fois u(B) < u(B') et u(B!') > u(B) ce qui force les égalités 
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u(B) = a(B") = u(B) = u(B'). Enfin, il est facile de vérifier que le prolongement de y à 
A est une mesure : si Ap, n € N sont des éléments disjoints de À, on peut pour chaque n 
choisir B, € À, Bn C À, de manière que 4,\B, soit négligeable, et on a 


XO (An) = D MBa) = ul] Ba) = a(l A), 


la dernière égalité parce que („ An\ U, Br C U, (An \ Bn) est négligeable. oO 








Proposition 3.2.4 La tribu M(X*) coïncide avec la complétée B(R*) de B(R®) par rapport 
à la mesure de Lebesgue À. 





Preuve. L'inclusion B(R4) C M(X*) est immédiate : si A € P(R) est tel que À C B, 
où B € B(R1) et A(B) = 0, alors A*(A) < X*(B) = A(B) = 0, et d’après le théorème du 
paragraphe 1, on sait que cela entraîne A € M(A*). 

Inversement, soit À € M(X*). On veut montrer que A € B(R‘). Sans perte de généralité, 
on peut supposer À C]— K, K[? (sinon on écrit A comme la réunion croissante des ensembles 
AN]-—n,n[%). On a alors A*(A) < œ, et donc pour chaque n > 1 on peut trouver une famille 
dénombrable (P?, i € N) de pavés ouverts contenus dans ] — K, K[% tels que 








ACÛUJPF, X vol(Pr) < X(4)+ > 


Posons 


Belle. Bf |P 


Alors B € B(R?), A C B, et d’autre part pour chaque n, 





1 

A*(B) < 1(P”) < X'(A) + — 
BEPA 

ce qui implique à*(B) = X*(A). En remplaçant A par | — K, K[®\A, on construit de même 
B € B(R‘), B C] - K, KẸ? telle que | — K, K[A C B et X(] — K, K[\ A4) = à*(B). Si 
B' =] — K, K[4\B, on doit alors avoir B’ C A et X(B') = A*(A). Finalement on a bien 
trouvé deux boréliens B et B’ avec B' C AC B et A(B\B') = 0. 




















Théorème 3.2.5 La mesure de Lebesgue sur R? est invariante par translation, au sens où 
pour tout À € B(R‘) et tout x € RË, on a A(x + A) = A(A). 

Inversement, si u est une mesure sur (R1, B(R‘1)) finie sur les parties bornées et invari- 
ante par translation, il existe une constante c > 0 telle que u = cà. 




















Preuve. Notons c, la translation o,(y) = y — x pour tout y € R‘. La mesure-image o, (À) 
est définie par 
VA € BIRI), o,(X)(A) = À(0,!(A)) = A(z + A). 





L'égalité o,(À)(A) = A(A) est vraie pour tout pavé A (puisque À et x +A sont deux pavés de 
même volume). A l’aide du lemme de classe monotone du Chapitre 1, il en découle aussitôt 
que üz(À) = À, ce qui est la première assertion du théorème. 

Inversement, soit u une mesure sur B(R°) invariante par translation. Soit 


= u([0, 1°. 


Comme {0,1[{* est la réunion disjointe de n° pavés qui sont des translatés de [0, tj 
résulte que pour tout entier n > 1, 





d il en 


la C 
(10, ml ) — na 
Soient ensuite a1,...,ag > 0. En écrivant 
a Ina; g Ina; 
LL. al [c c I [i 0,a;[C [c Jo. PT 
j=1 j=1 j=1 


(où [x] désigne la partie entière de x), on trouve 


Ua = agi, Ep < afio aD < T0 Ep = Tel +05 


j=l 





En faisant tendre n vers oo, il vient 


et en utilisant l’invariance par translation de u on trouve que les mesures u et cà coincident 
sur tous les pavés de la forme 
d 
II, 
j=1 


Comme dans la première partie de la preuve, cela suffit pour conclure que u = cà. 0 





Proposition 3.2.6 La mesure de Lebesgue sur R? est régulière au sens où pour tout À € 
B(R1), on a 





ACA) inf{A(U) : U ouvert ,A C U} 


sup{A(F) : F compact ,F C A}. 


Preuve. La quantité inf{A(U) : U ouvert , A C U} est toujours plus grande que A(A). Pour 

l’autre inégalité, on peut supposer À(A) < œ. Ensuite, par définition de A(A) = X*(A), on 

peut pour chaque € > 0 trouver un recouvrement de A par des pavés ouverts P; tels que 

XC A(P;) < A(A) +€. Mais alors l’ouvert U défini comme la réunion des P; contient A et on 
A(U) < SC A(P;) < A(A) + £, ce qui conduit à l'inégalité voulue. 
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Pour la deuxième égalité de la proposition, on peut supposer À contenu dans un compact 
C (sinon on écrit A(A) = lim f A(AN[-n,n|1)). Pour chaque £ > 0 on peut grâce à la 
première partie de la preuve trouver un ouvert U contenant C\A, tel que A(U) < A(C\A) +e. 
Mais alors F = C\U est un compact contenu dans À, et 


ACF) > ACC) — A(U) > A(C) — (A(C\A) +e) = AA) =e, 


ce qui donne la deuxième égalité. 0 


La proposition précédente peut être étendue à un cadre beaucoup plus général. Nous 
nous limitons au cas des mesures finies. 


Proposition 3.2.7 Soit (E,d) un espace métrique, et soit u une mesure finie sur (E, B(E)). 
Alors, pour tout A € B(E), 


H(A) 


inf{u(U) : U ouvert ,ACUY} 
sup{u(F) : F fermé, F C A}. 


Preuve. Notons © la classe des ouverts de Æ, et soit C la classe des ensembles À € B(E) 
qui vérifient la propriété de la proposition. Puisque la tribu borélienne est par définition 
engendrée par ©, il suffit de montrer que © C C et que C est une tribu. 
Si À € Ø, la première égalité est triviale. Pour la seconde, on remarque que pour tout 

n > 1, l’ensemble 

1 

Fr = {x E€ E : d(x, A) > =} 

n 

est fermé. Par ailleurs À = lim Î F,, ce qui entraîne 


(A) = lim T (Fn), 


ce qui donne bien la seconde égalité et prouve que O C C. 

Il reste à montrer que C est une tribu. On a Ø € C et à cause de la symétrie entre ouverts 
et fermés, on voit immédiatement que C est stable par passage au complémentaire. Soit 
ensuite (An)nen une suite dans C et soit € > 0. Pour chaque n, on peut trouver un ouvert 
U, contenant À, tel que u(Un) < u(An) +£27”, d’où 


u( Ja An) < $` u(Un — An) < 2e. 


nEN nEN nEN 


Puisque © U, est ouvert cela donne la première des deux égalités recherchées pour LA. 
Ensuite, soit N un entier assez grand pour que 


uU An) > aL] An) — €. 


nEN 


Pour chaque n € {0,1,..., N} on peut trouver un fermé F, C À, tel que u(A,\F,) < €27”. 
Alors 


est fermé et 


u((U An < > lA ) < 2e 


d'où 


(U A)\P) < 8e. 


n=0 


On conclut que (JAn E€ C, ce qui termine la preuve. 


3.3 Liens avec l'intégrale de Riemann 








Fixons un intervalle [a,b] non trivial de R. Une fonction h : [a,b] — R est dite en escalier, 
et on note h € Esc, s’il existe une subdivision a = £o < %1 < --- < £y = b et des réels 
Y1,-..,Yn tels que 

Vi € {1,..., N}, Vz Eļri-1, zil, f(x) = yi. 


On pose alors 


-Yue Ti — Ti— 1) 


Il est immédiat que (h) = le tag RAA. 





Une fonction bornée f : [a,b] — R est dite Riemann-intégrable si 
sup (h inf I(h 
SR l i= hEEsc, h> f l ) 


et cette valeur commune est notée I (f). 


Proposition 3.3.1 Soit f une fonction Riemann-intégrable sur [a,b]. Alors f est mesurable 
pour la tribu complétée B({a, b]), et 


I(f) = J RE 


Preuve. On peut trouver une suite (hn) de fonctions en escalier sur fa, b] telles que hn > f 
et I(hn) | 1(f). Quitte à remplacer hn par hi A ha A- -+ Ahn, on peut supposer la suite (An) 
décroissante, ce qui permet de poser 


hæ = lim | hn 2 f. 
De même, on peut trouver une suite croissante (hn) de fonctions en escalier avec hn < f et 
I(hn) 1 I(F), et poser 

hæ = lim Î hn < f. 
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Les fonctions hæ et ha sont boréliennes bornées. Par convergence dominée, 
| hœdà = lim | hnrdà = lim | Z(h}) = 1(f), 
[a,b] [a,b] 
l hd) = lim f hndà = lim ? I(hn) = I (f). 
[a,b] [a,b] 


Donc, 


f (hæ — hæ)dà = 0. 
[a,b] 
Puisque hæ > ha, cela entraîne hao = ho, À p.p. Comme hao > f > ha, f coïncide p.p. 


avec une fonction borélienne, et il est facile d’en déduire que f est B([a, b])-mesurable. Enfin 
puisque f = ha p-p. on a lex fdÀ = leu hs dà = I(f). oO 


3.4 Un exemple d’ensemble non mesurable 





Considérons l’espace R/Q des classes d'équivalence des réels modulo les rationnels. Pour 
chaque a € R/Q, soit za un représentant de a dans l'intervalle [0,1]. On pose 








F = {xza; a € R/Q} c [0,1]. 





Alors F n’est pas borélien, ni même mesurable par rapport à la tribu complétée B(R). 


Pour le vérifier, supposons F mesurable et montrons que cela conduit à une contradiction. 
D’abord, on a par construction 





Rc |a +F) 
qEQ 





et donc A(F) > 0, car sinon R serait contenu dans une réunion dénombrable d’ensembles de 
mesure nulle. 

Par ailleurs, les ensembles q + F, q € Q sont disjoints (si q + £a = q + £a’ ON a Za — Ty = 
q — q E Q et donc a = a puis q = q’). De l'inclusion 


U G@+F)c{0.2 


qEQN[O,1] 


on déduit donc 


XO Aq+F)<2 


qEQN [0,1] 


d’où A(F) = 0 ce qui est la contradiction recherchée. 





3.5 Intégrale de Stieltjes 











Le théorème suivant donne une description de toutes les mesures finies sur (R, B(R)). Le 
résultat peut être facilement étendu aux mesures de Radon. 
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Théorème 3.5.1 (i) Soit u une mesure finie sur (R, B(R)). Pour tout x € R, soit 


Fi(x) = a] — œ, |). 

La fonction F, est croissante, bornée, continue à droite et F (—o0) = 0. 

(ii) Inversement, soit F : R — R, une fonction est croissante, bornée, continue à droite 
et telle que F(—o) = 0. Il existe alors une unique mesure finie u sur (R, B(R)) telle que 
P= F 




















Remarque. Lorsque F = F,, on note souvent 


J run = | re dF(a 


C’est l’intégrale de Stieltjes de f par rapport à F. On a en particulier 


et 


où F(a—) désigne la limite à gauche de F en a. 


Preuve. (i) La vérification des propriétés de F, est facile. Par exemple si x, | x, les 
intervalles | — co, £n] décroissent vers | — co, x], et donc 


Fitn) = uC] = 0, £n]) | nf — 00, x]) = F(x). 


De même, si x, | —c, les intervalles ] — œœ, x,] décroissent vers Ø et donc F,(x,) | 0. 

(ii) L'unicité de u est une conséquence du lemme de classe monotone (cf Chapitre 1) : la 

classe C = {] — œ, x];x € R} est stable par intersection finie et engendre la tribu B(R). 
Pour montrer l'existence, on pose pour tout À C R: 


p°(4) = inf{S (F (b:) — F(ai)) : A c Je, bil} 


iEN iEN 











(Noter qu’on recouvre A par des intervalles ouverts à droite et fermés à gauche, et non plus 
des intervalles ouverts comme pour la mesure de Lebesgue.) Les mêmes arguments que dans 
le cas de la mesure de Lebesgue montrent que u* est une mesure extérieure. On vérifie par 
la même méthode que dans le cas de la mesure de Lebesgue que les intervalles | — œo, a] sont 
dans M(X*) (en fait c’est même plus facile ici). Il en découle que la tribu M(u*) contient la 
tribu borélienne, et que la restriction, notée u, de u* à M(u*) est une mesure sur (R, B(R)). 

Pour terminer, il reste à montrer que u(] — œœ, x]) = F(x) pour tout x € R. Il suffit pour 
cela d'établir que (Ja, b]) = F(b) — F(a) pour tous a < b (ensuite faire tendre a vers —oo). 
L’inégalité 














lila, b]) < F(b) — F(a) 
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est immédiate par construction de u*. 

Dans l’autre sens, soit (]x;,y:]);en un recouvrement dénombrable de Ja,b]. Soit € € 
]0,b— a[. Pour chaque à € N, on peut trouver y! > y; tel que F (yi) < F(y:) +27. Ensuite, 
on remarque qu’on peut recouvrir l'intervalle compact [a + £,b] par une sous-famille finie 
(ri, yiDieto,1,.. Ne} de la famille des intervalles ouverts (]x;,y{[);en. Un raisonnement simple 
montre qu’alors 


FO) - Fla+e) < PEO) = Fe) < EPU) — Fl) < YF) — Fa) + 2e 


En faisant tendre £ vers 0 on trouve 


F(b) — F(a) < X (F(y:) — F(xi)) 


i=0 





ce qui par définition de u* donne bien la minoration u(lļa,b]) > F(b) — F(a). oO 
Cas des mesures de Radon. La formule 


_ f a, x)) six > 0, 
FE l ade 0]) six <0, 














donne une correspondance bijective entre mesures de Radon u sur R et fonctions F : R — R 
croissantes continues à droite et nulles en 0. Ce résultat découle facilement du cas des mesures 
finies. On a encore l'égalité u(Ja, b]) = F(b) — F(a). Dans le cas particulier F(x) = x la 
mesure u est la mesure de Lebesgue. 





3.6 Le théorème de représentation de Riesz 


Soit X un espace métrique. On note Ce(X) l’espace des fonctions continues à support 
compact sur X. Une forme linéaire J sur C;(X) est dite positive si J(f) > 0 dès que f > 0. 
Si u est une mesure de Radon sur X, on définit une forme linéaire J sur C.(X) en posant 


= f fan 


Noter que l'intégrale est bien définie puisque |f| < C 1x, où K est un compact de X, et u 
est finie sur les compacts. De plus J est positive. 

Le théorème de représentation de Riesz montre que sous des hypothèses convenables 
toute forme linéaire positive sur Ce(X) est de ce type. 


Théorème 3.6.1 Soit X un espace métrique localement compact séparable, et soit J une 
forme linéaire positive sur C.(X). Il existe alors une unique mesure de Radon u sur 
(X, B(X)) telle que 


vVfeC(X), JD = f fan 
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La mesure u est régulière au sens où pour tout A € B(X), 


X(A) inf{A(U) : U ouvert ,A C U} 


= sup{A(F): F compact, F C A}. 
De plus, pour tout ouvert U de X, 


a(U) = sup{ J (f) : f € Ce(X), 0< f lu}. 





Exemple. Si X = R, on peut prendre J(f) = I(f), où I(f) est comme ci-dessus l'intégrale 
de Riemann de la fonction f. On vérifie aisément que J est une forme linéaire positive sur 
C.(R). La mesure associée est (bien sûr) la mesure de Lebesgue. Cela fournit donc une autre 
construction de la mesure de Lebesgue (en supposant construite l'intégrale de Riemann des 
fonctions continues). 





Nous ne donnons pas ici la preuve du Théorème 3.6.1 : voir le Théorème 10.1 de Briane 
et Pagès [2] ou le chapitre 2 de Rudin [7], qui donne un énoncé un peu plus précis. 
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Chapitre 4 


Espaces L” 


Ce chapitre est consacré principalement à l’étude de l’espace L? des fonctions dont la valeur 
absolue est de puissance p-ième intégrable. Les inégalités fondamentales de Hôlder, de 
Minkowski et de Jensen constituent un outil important pour cette étude. On étudie no- 
tamment la structure d’espace de Banach de l’espace LP, et dans le cas particulier p = 2 
la structure d’espace de Hilbert de L?. Les théorèmes de densité montrant qu’on peut ap- 
procher n'importe quelle fonction de LP par des fonctions plus “régulières” jouent un rôle 
important dans beaucoup d’applications en analyse. En application de la structure hilber- 
tienne de L?, on établit le théorème de Radon-Nikodym, qui étant donné une mesure de 
référence permet de décomposer n’importe quelle autre mesure en la somme d’une mesure à 
densité par rapport à la mesure de référence et d’une mesure “étrangère”. 


4.1 Définition et inégalité de Hôlder 


Dans tout ce chapitre on considère un espace mesuré (E, A, u). Pour tout réel p > 1 on pose 





L(E, A, u) = {f : E — R mesurable; | |f| du < oo} 


et on définit aussi 


£L®(E, A, u) = {f : E — R mesurable; IC ER, : |f| < C, u p.p.}. 














On pourrait aussi considérer les espaces L% et L® obtenus en considérant des fonctions à 
valeurs complexes, mais dans ce chapitre nous nous intéresserons surtout au cas réel. 
Pour chaque p € [1, co], on définit une relation d'équivalence sur £?” en posant 


f=g si et seulement si f =g, u p.p. 
Cela conduit à définir l’espace quotient 
LP(E, A, y) = L(E, A, u)/ =. 


Un élément de LP(E, À, u) est donc une classe d'équivalence de fonctions égales u p.p. Dans 
la suite on fera presque systématiquement l’abus d'écriture consistant à identifier un élement 
de LP(E, A, u) à l’un de ses représentants. 
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Pour toute fonction f : E — R mesurable, on note pour p € [1, oof, 


Ile = ( fran)” 


(avec la convention æ!/P = ©) et 
fl = inf{C € [0,00] : |f| < C, x p-p} 


de façon que || fl] < |fllx, u p-p. et que [fl est le plus petit nombre dans [0, co] avec 
cette propriété. 
Soient p,q € [1,00]. On dit que p et q sont des exposants conjugués si 


En particulier, p = 1 et q = œo sont conjugués. 


Théorème 4.1.1 (Inégalité de Hölder) Soient p et q des exposants conjugués. Alors, si 
f etg sont deux fonctions mesurables de E dans R, 





J Halan< feat. 
En particulier, fg € L\(E, A, u) dès que f € LP(E, A, u) et g € LE, A, p). 
Preuve. Si ||f|}, = 0, on à f = 0, u p.p., ce qui entraîne f |fgldu = 0, et l'inégalité est 
triviale. On peut donc supposer ||f||p > 0 et ||gll > 0. Sans perte de généralité on peut 


aussi supposer f € LP(E, A, u) et g € LUE, A, u). 
Le cas p = 1, q = œ est facile : on a |fg| < |lgllolfl, u p-p., d’où 


fitoians Isl f 1fidu = lglllfll. 


Supposons 1 < p < œ (et donc 1 < q < æ). 
Soit a €]0, 1[. On a pour tout x € R} 





a — ax <l— a. 


En effet la fonction palz) = x” — ax a pour dérivée sur ]0, oo|, h(x) = a(x°%-! — 1) qui 
est positive sur |0, 1[ et négative sur ]1, oo|. Donc Ya est maximale en x = 1, ce qui donne 
l'inégalité recherchée. En appliquant cette inégalité à x = +, où u > 0 et v > 0, on trouve 


uv < au + (1— a)v, 








inégalité qui reste vraie si v = 0. On prend alors a = 3 (donc 1 — a = 3 puis 
p q 
POP BO 
IFI lglla 
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pour aboutir à 


GG) LG, 1 
elole » E a Id: 








En intégrant cette dernière inégalité par rapport à u, il vient 


1 | 1 1 
 Joldu <= += 21. 
HAE ar 














Exercice. Lorsque 1 < p < ©, montrer qu’il y a égalité dans l'inégalité de Hôlder ssi il 
existe deux réels positifs a, 8 non tous deux nuls, tels que a| f|? = 5|g[? u p-p. 


Le cas particulier p = q = 2 de l’inégalité de Hôlder est l’inégalité de Cauchy-Schwarz 


fitas (JirPa) (S ioPae) 


Considérons le cas particulier où y est finie. En prenant g = 1, on trouve 


Jif du < nE ith 


ce qui montre que LP C L! pour tout p €]1,œ0]. En remplaçant |f| par |f|" (r > 1) et en 
posant r’ = pr, on trouve pour tous 1 < r < r’ < œ 


1_1 
IF < eE? Ill, 


et donc L” C L" (toujours dans le cas où y est finie). Lorsque u est une mesure de probabilité 
on a || fll- < || f| pour tous 1 < r < r’ < oo. 
Cette dernière inégalité peut être vue comme un cas particulier de l'inégalité de Jensen. 


Théorème 4.1.2 (Inégalité de Jensen) Supposons que u est une mesure de probabilité, 





et soit y: ] 





R — 





R, une fonction conveze. Alors, pour f € L\(E, A, u), 


footinze( fran) 


Remarque. L'intégrale f pof du est bien définie comme intégrale d’une fonction mesurable 


positive. 


Preuve. Soit 








Ep = {(a,b) E€ R? : Yz E€ R, (£) > ax +b}. 


Les propriétés bien connues des fonctions convexes assurent que 





VxeR, (x)= sup (ax +b). 
(a. b)eEs 
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En conséquence, 


V 


Jeofdn > sip fiaf+bdn 
(a,b)eEs 

sup (a f fan +v) 

(a,b)eEs 


o( f tan) 


Exercice. Montrer que si u(E) < œ on a 


Ifilo = lim ||fllp- 
p— 00 


4.2 L’espace de Banach P(E, A, ji) 


Théorème 4.2.1 (Inégalité de Minkowski) Soit p € [1,00], et soient f,g € LP(E, A, u). 
Alors, f +g € L(E, A, u) et 


ILF + sll < No + lloll- 


Preuve. Les cas p = 1 et p = œo sont faciles en utilisant simplement l'inégalité |f + g| < 
|f| + |gl. Supposons donc 1 < p < œo. En écrivant 


|f + gP < (FP + lgl) 


on voit que f |f + gl?du < œ et donc f +g € L?. Ensuite, en intégrant par rapport à u 
l'inégalité 
Frar EITE H a 





on trouve 
Ji + gdp < Ju |f + gl du + | gl |f + gl "dp. 
En appliquant l'inégalité de Hôlder aux réels conjugués p et q = p/(p — 1), il vient 
p=l —1 


fit+ gan< 1, f 1+ gran) + lola, fur + gra) 


Si f |f + g|?du = 0, l'inégalité du théorème est triviale. Sinon on peut diviser chacun des 
deux membres de l'inégalité précédente par (f |f + gl?du)®-1/P et on trouve le résultat 
recherché. o 


Théorème 4.2.2 (Riesz) Pour tout p € [1,œ0], l’espace LP (E, A, u) muni de la norme 
f — ||fllp est un espace de Banach (i.e. un espace vectoriel normé complet). 
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Preuve. On se limite au cas 1 < p < œ (le cas p = œ est plus facile). Vérifions d’abord 
que f — ||f||p est une norme sur L?. On a 


lfl =0=> f iffa = 0 7 =0 x pp 


ce qui signifie que f = 0 dans L? (f appartient à la classe d'équivalence de 0). La propriété 
IAZ = [All llp pour À € R est immédiate, et l’inégalité de Minkowski donne l'inégalité 
triangulaire. 

Il reste à montrer que LP muni de cette norme est complet. Soit (f,)1>1 une suite de 
Cauchy dans L’. Alors on peut choisir une suite d’entiers (kn) strictement croissante de 
façon que pour tout n > 1, 





I fre J frn llp LIN, 


Posons gn = fk, et remarquons en utilisant le théorème de convergence monotone puis 
l'inégalité de Minkowski que 


J (Elen — gnl) dy m T | (Llen — on) du 


N 

. p 
< fm T (5 Îgna+1 — Gall) 

1e n=l 

= p 

= os ÎQn+1 z Inllp) 

n=l 
< ©. 


On a donc 


D_lgnna-gml<o, upp. 
n=1 


et cela permet de poser 
h = gı + Yoni an gn) 
n=1 
la série convergeant absolument sauf sur un ensemble de mesure nulle sur lequel on peut 
prendre une définition arbitraire de h (par exemple h = 0). La fonction h est alors mesurable. 
Puisque gy converge vers h, u p.p., on a |h] = liminf |gx|, u p-p. et le lemme de Fatou montre 
immédiatement que 


f tra < iminf f Ignl?du < sup | løxl”du LOO; 
N21 


puisque la suite f» étant de Cauchy est bornée dans LP. Enfin, à nouveau grâce au lemme 
de Fatou, on a 


|h — grli = f |h — gnldu < mint / gx — gnl°dp = liminf [gx — gnll < (279? 
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en majorant pour N > n, ||gw—gully < Îlgus1gnlp+-+|law-9n Île < 277. L'inégalité 
précédente montre que gn converge vers h dans L”. Cela entraîne que fn converge vers A et 
termine la preuve. O 


Exemple. Si E = N et u est la mesure de comptage, pour tout p € [1, |, l’espace L? est 
l’espace des suites a = (an)nen de réels tels que 


O0 
D lan? < oo 
n=0 


muni de la norme 
2 1/p 
jale = (Sal) 
n=0 


L’espace L® est simplement l’espace des suites (an)nen qui sont bornées, muni de la norme 
llall = suplan). Remarquons que dans ce cas il n’y a pas d'ensemble non vide de mesure 
nulle et donc L? coïncide avec £P. Cet espace est en général noté Æ = Æ#(N). Il joue un rôle 
important dans la théorie des espaces de Banach. 


La dernière preuve fait apparaître un résultat intermédiaire qui mérite d’être énoncé. 


Proposition 4.2.3 Soit p € |1, | et soit (fn) une suite qui converge vers f dans LP” (E, A, u). 
Il existe alors une sous-suite (f,,) qui converge u p.p. vers f. 


Remarque. Le résultat est aussi vrai pour p = œo, mais dans ce cas l'extraction d’une sous- 
suite n’est pas nécessaire puisque la convergence L® équivaut à une convergence uniforme 
sauf sur un ensemble de mesure nulle. 


On peut se demander si inversement la convergence u p.p. entraîne la convergence L’. 
Cela n’est pas vrai, mais le théorème de convergence dominée montre que si : 


aJe Pp 
(ii) Il existe une fonction g > 0 telle que f |f|Pdu < oo et Yn, [fil < 9, H P-P. 


alors fa — f dans D’. 


Exercice. On suppose u(E) < œœ. Soit p € |1, oo|. Montrer que les conditions 
(i) fa — f, H pp. 
(ii) Il existe r > p tel que sup f [fnl du < œ 


entraînent fn — f dans D. 


Le cas p = 2 du théorème de Riesz est particulièrement important puisque l’espace L? a 
une structure d'espace de Hilbert. 
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Théorème 4.2.4 L'espace L?(E, A, u) muni du produit scalaire 


(f,9) = f fodu 


est un espace de Hilbert (réel). 


Preuve. L'inégalité de Cauchy-Schwarz montre que si f,g € L?, fg est intégrable et donc 
(f, g) est bien défini. Ensuite il est clair que (f,g) — (f, g) définit une forme bilinéaire 
symétrique définie positive, et que la norme associée est la norme || f ||2. Le caractère complet 
découle du théorème de Riesz. O 

On peut donc appliquer à L?(E, A, u) les résultats classiques sur les espaces de Hilbert. 
En particulier, si ® : L?(E, A, p) — R est une forme linéaire continue, il existe un (unique) 
élément g de L?(E, A, u) tel que Yf € L?, @(f) = (f, g). Ce résultat nous sera utile dans la 
suite de ce chapitre. 





Remarque. Comme les résultats précédents, le théorème ci-dessus s'étend au cas complexe. 
L'espace L&(E, À, p) est un espace de Hilbert complexe pour le produit scalaire 


(to) = | fdn 





4.3 Théorèmes de densité dans les espaces L’ 


Si (E, d) est un espace métrique, une mesure u sur (E, B(E)) est dite extérieurement régulière 
si 


VAEB(E), u(A)=inf{u(U) : U ouvert, A C U}. 





Une fonction f : E —» R est dite lipschitzienne s’il existe une constante K telle que 


Théorème 4.3.1 Soit p € [1, œ]. 

(1) L'espace des fonctions étagées intégrables est dense dans LP (E, A, u). 

(2) Si (E,d) est un espace métrique, et p une mesure extérieurement régulière sur 
(E,B(E)), l’espace des fonctions lipschitziennes bornées qui sont dans LP est dense dans 
IP(E, B(E), p). 

(3) Si (E,d) est un espace métrique localement compact séparable, et u une mesure de 
Radon sur E, alors l’espace des fonctions lipschitziennes à support compact est dense dans 
LP(E,B(E), u). 


Preuve. (1) En décomposant f = ft — f`, il suffit de montrer que si f € LP est positive, 
alors f est limite dans L? d’une suite de fonctions étagées. On sait que 


f= lim îon 
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où pour chaque n, 0 < yn < f et pn est étagée. Alors, f |yn| Pdu < [|f|Pdu < o et donc 
Pn € LP (ce qui pour une fonction étagée équivaut à w, € Lt). Puisque |f — yn|? < fP, le 
théorème de convergence dominée donne 


lim / |f — grldu = 0. 


(2) Il suffit de montrer que toute fonction étagée intégrable est limite dans L?” de fonctions 
lipschitziennes bornées. On se ramène aisément au cas f = 14, À € B(E), (A) < œ. Soit 
alors € > 0. On peut trouver un ouvert O contenant À tel que u(O\A) < (£/2}?, et donc 


E 
llo = lallp < 2° 


Ensuite, pour tout k > 1, on pose p(x) = (kd(x,0°)) A1. La fonction px est lipschitzienne 
et Yk T lo quand k — oo. Par convergence dominée, f |lo — x|Pdu — 0 quand k — oo, 
et donc on peut choisir k assez grand pour que 


Lo E Prllp < 


Finalement, 
lla — yxzllo < llla — tollp + Illo — vxll, < €. 
(3) On utilise le lemme suivant, dont la preuve est repoussée à la fin de la démonstration. 


Rappelons que si À est un sous-ensemble de Æ, A désigne l’intérieur de A. 


Lemme 4.3.2 Soit E un espace métrique localement compact séparable. Alors il existe une 
suite croissante de compacts (Ln)n>1 tels que, pour toutn, Ln CL, et E = © p= © L,. 


n>1 n>1 


Il est facile de déduire du lemme que toute mesure de Radon u sur E est extérieurement 
régulière (ce qui a déjà été vu, sans démonstration, dans l’énoncé du théorème de représenta- 
tion de Riesz). En effet, si A est un borélien de E, on peut en considérant la restriction de 


u à Ln (qui est une mesure finie) appliquer un résultat de régularité extérieure du chapitre 


précédent et trouver pour chaque n un ouvert On C A tel que AN A C On et 


HONANI ea 


Alors la réunion O des O, est un ouvert de E et 


u(O\A) < D MOAN Ln)) < € 


n>1 


Ensuite, puisque u est extérieurement régulière, on peut appliquer la partie (2) du 
théorème. On est ainsi ramené à montrer que toute fonction f lipschitzienne bornée telle 
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que f |fl?du < œ est limite dans L” de fonctions lipschitziennes à support compact (noter 
que celles-ci sont automatiquement dans LP). Par convergence dominée, on a 


lim /, |flPdu 0, 


n— OO (Ln)° 


et donc || f — fle 





|p — 0. D'autre part, pour chaque n fixé, et pour tout k > 1, soit 


plz) = kd(x, (En) A 1. 


Alors Yn, € LP puisque Yn,k < Le . De plus, par convergence dominée à nouveau, on voit 
n 
que pour chaque n fixé, Yn, converge vers Le dans LP quand k — ©. Finalement, en 
n 


écrivant 


If- female < IF- F1; lot Nfl; — fensllo < IF- FL; 








lo + IlFllollle = Ynxllp 


et en choisissant n puis k assez grands, on approche f dans L? par la fonction fo, qui est 
lipschitzienne à support compact. 














Preuve du lemme. On montre d’abord que E est réunion d’une suite croissante de com- 
pacts (Kn)n>1. Pour cela, soit (£p)p>o une suite dense dans Æ. Introduisons l’ensemble 7 de 
couples d’entiers défini par 


I = {(p,k) € N°: B(xp,2¥) est compact}, 


où B(x,r) désigne la boule fermée de centre x et de rayon r. En utilisant le fait que E est 
localement compact et la densité de la suite (xp) il est facile de voir que 


Be (Be 


(p,k)eI 


Par ailleurs, 7 étant dénombrable, on peut trouver une suite croissante de sous-ensembles 
finis In, n > 1 de J tels que T soit la réunion des /,. Alors il suffit de poser 


k= U 1802" 


(p,k)€In 


pour avoir les propriétés recherchées. 

Ensuite, on construit la suite (Ln) par récurrence sur n. On prend Lı = Kı. Siona 
construit L,, on recouvre le compact Kn+1 U Ln par une réunion finie Vi UV U... U Vp 
de voisinages ouverts d’adhérence compacte de points de K,,:1 U Ln, et on prend L,,:1 = 
VUV U... UW. 














Conséquences. Pour p € [1,œ0|, on a : 








(i) L'espace C.(IR‘) des fonctions continues à support compact sur R? est dense dans 
Le (R?, B(R‘), À). On peut remplacer À par n'importe quelle mesure de Radon sur (R4, B(R‘)). 
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(i) L'ensemble des fonctions en escalier (à support compact) est dense dans LP(R, B(R), À). 
En effet il sufit de vérifier que toute fonction f € Ce(R) est limite dans L? de fonctions en 
escalier. Cela se voit en écrivant 








Application. Si f € L!(R, B(R), À). 








—> 0 
l ll 00 


On se ramène par densité au cas où f est une fonction en escalier : si f est limite dans L! 
d’une suite (pn) de fonctions en escalier, 


sup [F(E — 2,01 = sup] | Feide- f pala) da] < IF- pall 
€ 
p 
qui tend vers 0 quand n — oo. Ensuite, si f est en escalier, f = X Aj Dz; zj ON a 
j=1 
p Etzi — ateti 
2 eSti eSti 
o aE) Er 


d’où le résultat voulu. 





4.4 Le théorème de Radon-Nikodym 


Définition 4.4.1 Soient u etv deux mesures sur (E, A). On dit que: 


(i) v est absolument continue par rapport à u (notation v & u) si 
VAE À, (A) =0—= 7(A)=0. 
(ii) v est étrangère à u (notation v L u) s'il existe N € A tel que (N) = 0 et v(N°) = 0. 


Exemple. Si f est mesurable positive , la mesure v = f - u définie par 


v4)= f fan 


est absolument continue par rapport à pu. 


Théorème 4.4.1 (Radon-Nikodym) Soient u et v deux mesures o-finies sur (E, A). Il 
existe alors un unique couple (Va, Vs) de mesures o-finies sur (E, A) telles que 
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(1) V = Va + Vs. 


(2) Va K h et vs Lh. 





De plus, il existe une fonction mesurable g : E — R, telle que 
VAE À, aA) = | gdu 
A 


et la fonction g est unique à un ensemble de -mesure nulle près. 


Preuve. On traite d’abord en détail le cas où les deux mesures u et v sont finies. L'extension 
au cas o-fini ne présentera pas de difficulté. 

Cas où u > v. Dans un premier temps, on suppose v < y, c’est-à-dire f gdv < f gdu 
pour toute fonction mesurable positive g. Considérons alors l'application ® : L?(E, A, p) — 
R définie par 





a) = | rdv. 


Remarquons que l'intégrale a bien un sens puisque 


Jia < fitin 


et on sait que pour une mesure finie L?{u) C Ll(u). De plus, ®(f) ne dépend pas du 
représentant de f choisi pour calculer f fdv : 


f=}, upp =>f= f vos | à | rar. 
D’inégalité de Cauchy-Schwarz montre que 
1/2 1/2 
DIS (fra) EP < ( f Pau) uE = BPPN 


Donc ® est une forme linéaire continue sur L?(E, A, u) et on sait alors qu’il existe une 
fonction h € L?(E, A, u) telle que 


VELHE An), O(P) = (Fh) = | fn 
En particulier, en prenant f = 14, 
VAEA, v(A)= frau 
On peut aussi remarquer que 0 < h < 1, u p.p. En effet, pour tout € > 0, 


u({z : h(x) > 1+e}) > (x : Aa) > 1+e}) = f hdu > (1+e)u({a : h(x) > 1+e}) 


{x:h(x)>1+€} 
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ce qui implique u({x : h(x) > 1+e}) = 0. On montre de même que h > 0 u p.p. Remarquons 
que quitte à remplacer h par (h V 0) A 1, on peut supposer 0 < h(x) < 1 pour tout x € E. 


Cas général. On applique la première partie de la preuve aux mesures v et 1 +1. Il existe 
donc une fonction mesurable h telle que 0 < h < 1 et, pour toute fonction f € L?{u +v), 


ra [au 


En particulier, pour toute fonction f mesurable bornée, 


Jra= findus [ar 
Jra-ma- f fhan 


En utilisant le théorème de convergence monotone, on voit que cette dernière égalité est 
vraie pour toute fonction f mesurable positive. 

Posons N = {x € E : h(x) = 1}. Alors en prenant f = 1y, on voit que u(N) = 0. La 
mesure 


d’où 


D rw (VA € A, v,( A) =v(ANN) 


est donc étrangère à u. D'autre part, en remplaçant f par 1we(1 — h) !f dans l'égalité 
ci-dessus, on trouve que pour toute fonction f mesurable positive, 


fra fr ue f tsan 


Va =InN:v=g'ph 


où g = Iyeztz En posant 


on a bien les propriétés (1) et (2) du théorème, et la représentation annoncée pour va- 
L’unicité du couple (Va, Vs) est facile. Si (Da, Ďs) est un autre couple avec les propriétés 
(1) et (2), on a 
VAEA, alA)-— Î(A) = v:(A)-— (A). 


Mais comme v; et Ďs sont portées respectivement par des ensembles N et N de u-mesure 
nulle, on a 


v(A)—5,(4) = v,(AN(NUN))-5,(AN(NUN)) = ZA(AN(NUN))-&(AN(NUN)) = 0 


à cause de la propriété Va & U, Da X u. Enfin, pour obtenir l’unicité de g, on se donne une 
autre fonction ĝ avec la même propriété, et on observe que 


f ÿ du = val{ğ > g}) = f gdy, 
{3>9} {9>9} 


f (9 — g) du = 0 
{3>9} 


54 


d'où 


ce qui force ĝ < g, u p.p. et par symétrie g = ÿ, u p.p. 

Il reste à s'affranchir de l'hypothèse supplémentaire que u et v sont finies. Si u et v sont 
seulement o-finies, on peut construire une partition mesurable dénombrable (En)nen de E 
de manière que u(En) < œ et v(En) < œ pour tout n. Notons un la restriction de u à En 
et Vn la restriction de v à En. En appliquant le début de la preuve on peut écrire pour tout 
n EN, 

Vn = VS + Ve 


où V? L Un, et V? = Qn: Hn, la fonction mesurable gn étant nulle sur E£ (puisque u,(E£) = 0, 
il est clair qu’on peut imposer cette dernière condition). On obtient le résultat du théorème 


en posant 
DEN Ds eds God 0 


nEN nEN nEN 


(Dans la dernière somme, remarquer que pour chaque x € E il y a au plus une valeur de n 
pour laquelle g,(x) > 0.) La vérification des propriétés d’unicité ne présente pas de difficulté. 
E 
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Chapitre 5 


Mesures produits 


Etant donné deux espaces mesurables munis chacun d’une mesure, on peut construire sur 
leur produit cartésien une mesure appelée la mesure produit. De plus l'intégrale d’une 
fonction définie sur l’espace produit peut être calculée en intégrant d’abord par rapport à la 
mesure sur le premier espace puis par rapport à la mesure sur le second, ou bien dans l’ordre 
inverse : c’est le fameux théorème de Fubini. Outre ses applications importantes en analyse 
(intégration par parties, convolution, etc.) ou en théorie des probabilités, le théorème de 
Fubini est un outil essentiel pour le calcul effectif des intégrales. 


5.1 Généralités sur les espaces produits 


Soient (E, A) et (F, B) deux espaces mesurables. On peut alors munir le produit E x F de 
la tribu-produit 

ASB=0(AxB; AEA,BEB). 
Les ensembles de la forme A x B sont appelés pavés mesurables. Il est facile de vérifier que 
AQB est la plus petite tribu sur E x F qui rende mesurables les deux projections canoniques 
mı: E x F — E et m : E x F — F. 

Soit (G,C) un troisième espace mesurable, et soit f : G — E x F. Notons f(x) = 
(filx), fa(x)). On a vu dans le Chapitre 1 que f est mesurable (E x F étant muni de la 
tribu produit) ssi les deux applications fı et f2 le sont. 

On étend facilement la définition de la tribu produit au cas d’un nombre fini quelconque 
d'espaces mesurables (ÆE1,.4:),...,(En, An) : 


AD A8: D A, = 0(A X + X An; À; € Ai) 
et on a les propriétés d’“associativité” attendues, à savoir par exemple pour n = 3, 
(A1 © A2) Q A3 = Aı 8 (A2 © A3) = A1 Q A2 Q A3 . 
Proposition 5.1.1 Si E et F sont deux espaces métriques séparables, on a 


B(E x F) = B(E) & B(F). 
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Preuve. L'inclusion B(E x F) D B(E) @ B(F) est vraie sans hypothèse de séparabilité : 
elle découle de ce que les projections mı et m2 sont continues donc mesurables pour la tribu 
B(E x F). 

Dans l’autre sens, on observe qu’on peut trouver un ensemble dénombrable d’ouverts 
U = {U,,n > 1} de E tels que tout ouvert de E soit réunion d’une sous-famille de U (si 
(xx) est une suite dense dans E, il suffit de prendre pour { les boules ouvertes de rayon 
rationnel centrées en l’un des xx). Soit V = {V,,n > 1} une famille analogue pour F. Pour 
tout ouvert O de E x F et tout z = (x,y) € O, on sait que O contient un ouvert de la 
forme U x V, où U, resp. V, est un ouvert de E, resp. de F, contenant x, resp. y. Il 
en découle que © doit être réunion (au plus dénombrable) d’une sous-famille de la famille 
{Un X Vmin, m > 1}. Donc tout ouvert de E x F est mesurable pour B(E) @ B(F) et cela 
entraîne B(E x F) C B(E) 8 B(F). O 





On revient au cas où (E, A) et (F, B) sont deux espaces mesurables quelconques. Si 
C C E x F, on pose pour g € E 


C= {yE F:(x,y) €C} 


et pour y € F, 

C! = {xE E: (x,y) EC}. 
Si f est une fonction définie sur E x F, on note pour x € E, fly) = f(x,y) et pour y € F, 
PS): 


Théorème 5.1.2 (i) Soit C E€ AQ B. Alors, pour tout x € E, C, E€ B et pour tout y € F, 
C! EA. 

(ii) Soit f : E x F — G une application mesurable pour la tribu produit AQB. Alors, pour 
toutx € E, fy est B-mesurable, et pour tout y € F, f? est A-mesurable. 


Preuve. (i) Fixons x € E et posons 
C={CEA8QB: C, €B}. 


Alors C contient les pavés mesurables (si C = A x B, C} = B ou C} = Ø selon que x € A 
ou x € A). Par ailleurs il est facile de vérifier que C est une tribu, et donc C = A @ B. 
(ii) Pour toute partie mesurable D de G, 


fr (D) = {y € F : (x,y) € F (D)} = (7D): 














qui est dans B d’après (i). 


5.2 Construction de la mesure-produit 


Théorème 5.2.1 Soient u et v deux mesures o-finies respectivement sur (E, A) et sur 
(F, B). 
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(i) Il existe une unique mesure m sur (E x F, A @ B) telle que 
VAE A, YB € B, m(A x B) = u(A)r(B) 


(avec la convention usuelle 0 -o0 = 0). Cette mesure est o-finie, et est notée m = 8v. 
(ii) Pour tout C E€ AQB, 


evo f 


E 


W(Ca)ulda) = | MO) vldy): 

F 
Preuve. Unicité. Il existe une suite croissante À, € À, resp. Bn € B, telle que u( An) < oo, 
resp. u(B,) < œ, pour tout n, et E = UAn, resp. F = UB,. Alors, si Cp = An X Bn, on a 
aussi 


EF SEa 
Soient m et m’ deux mesures sur A @ B vérifiant la propriété énoncée en (i) du théorème. 
Alors, 


e m et m’ coincident sur la classe des pavés mesurables, qui est stable par intersection finie 
et engendre la tribu À & B; 


e pour tout n, m(Cn) = ul An) (Bn) = Mm'(Chn) < 00. 


D’après une conséquence du lemme de classe monotone vue dans le Chapitre 1, cela suffit 
pour dire que m = m. 
Existence. On pose pour tout C E€ A 8 B, 


m(C) = i (CO) pd). (51) 


Remarquons que v(C.) est bien définie pour tout x € E d’après le théorème précédent. Pour 
vérifier que la formule (5.1) a bien un sens il faut aussi montrer que l’application x — v (Cz) 
est À-mesurable. 

Supposons d’abord v finie et posons 


G ={C € AQB: x — v(Cz) est A-mesurable}. 
Alors 
e G contient les pavés mesurables : si C = A x B, v(C+) = 14(x)r(B). 


e G est une classe monotone : si C C C’, on a v((C\C")z) = v(Cz) — v(C!) (parce que v 
est finie !) et si Cn est une suite croissante, v((UC, );) = lim f v((Chn)z). 


D’après le lemme de classe monotone, on a donc G = A Q B, ce qui donne la mesurabilité 
recherchée pour l'application x — v(C;). 

Dans le cas général où v n’est pas finie mais seulement ø-finie, on choisit la suite (Bn) 
comme ci-dessus et on peut remplacer v par ,(B) = v(B N Bn), pour obtenir que r — 
v(Cz) = lim f vn(Cz) est mesurable pour tout C € A Q B. 
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Il est ensuite facile de montrer que m est une mesure sur À Q B : si (Cn) est une famille 
de parties disjointes dans À @ B, les (C,), sont aussi disjoints pour tout x € E, et donc 


m(UG) = f AUC) tr) 
J EECa) ula) 


= X | Ce) ulda) 
NO m(Ca) 


l’interversion entre somme et intégrale étant justifiée par un résultat du Chapitre 2. 
Il est immédiat que m vérifie la propriété 


m(A x B) = u(A)r(B). 


Par ailleurs, si on définit m’ par 
m(C)= | ac) vidy), 
F 


les mêmes arguments montrent que m’ est une mesure sur AQB qui vérifie la même propriété, 
ce qui d’après l’unicité entraîne m = m’. On en déduit l’assertion (ii) du théorème, ce qui 
complète la preuve. E 


Remarques. (i) L'hypothèse de o-finitude est essentielle au moins pour la partie (ii). En 
effet, si on prend (E, A) = (F, B) = (R, B(R)), u = À et v la mesure de comptage, on 
remarque que pour C = {(x,x):x € R}, 














œo = f v(C,) (dx) Z | A(C”) v(dy) = 0. 


(ii) Si on a maintenant n mesures o-finies H1, ..., Hn, on peut définir le produit 41 8- --® Hn 
en posant 
pu ® ++ Hn = pu 8 (u28 O Un)). 


L'ordre des parenthèses n’a en fait pas d'importance car la mesure U18: --Qu, est caractérisée 
par ses valeurs sur les pavés 


WB @ Mn A X e X An) = MA) e lA): 











Exemple. Si (E, A) = (F, B) = (R, B(R)), et u = v = À, on vérifie facilement que À @ À est 
la mesure de Lebesgue sur R? (observer que la mesure de Lebesgue sur R? est caractérisée 
par ses valeurs sur les rectangles {a, b] x [c, d], toujours d’après le lemme de classe monotone). 
Ceci se généralise en dimension supérieure et montre qu’il aurait suffi de construire la mesure 
de Lebesgue en dimension un. 
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5.3 Le théorème de Fubini 


On commence par donner l’énoncé qui concerne les fonctions positives. Comme dans le 
paragraphe précédent, on considère deux espaces mesurables (E, A) et (F, B), et le produit 
E x F est muni de la tribu A @ B. 


Théorème 5.3.1 (Fubini-Tonnelli) Soient u et v deux mesures o-finies respectivement 
sur (E, A) et sur (F,B), et soit f : E x F — [0, |] une fonction mesurable. 
(i) Les fonctions 


5 — | Hæv) 
y — | fur) 


sont respectivement A-mesurable et B-mesurable. 
(ii) On a 


E 1 Î (fre) v (dy) }u(dx) = i (J Fe y) u(dx))v(dy). 


Preuve. (i) Soit C € AQB. Si f = 1c, on a déjà vu que la fonction x — f f(x, y)v(dy) = 
v(C;) est A-mesurable, et de même y — f f(x, y)uldxr) = u(C”) est B-mesurable. Par 
linéarité, on en déduit que le résultat de (i) est vrai pour toute fonction étagée positive. 
Enfin, si f est quelconque, on peut écrire f = lim Î fn, où les fonctions f, sont étagées 
positives, et on utilise le fait qu’alors 


| f(z, y) v(dy) = lim 1 | fale, y) v (dy) 


et de même pour f f(x, y) (dx). 
(ii) Pour f = 16, l'égalité annoncée est 


evo | 


E 


(O2 at) = | a(C®) v(dy) 


F 


et a déjà été vue dans le paragraphe précédent. On en déduit par linéarité le résultat voulu 
quand f est étagée positive, puis par limite croissante pour f quelconque : on remarque par 
exemple que si f = lim Î fn, 


J (f ten vdy))ulda) = imt | ( ft v(dy) )u(dx) 


par une double application du théorème de convergence monotone. 0 





Nous passons maintenant au cas de fonctions de signe quelconque. On conserve les 
hypothèses du théorème précédent. 
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Théorème 5.3.2 (Fubini-Lebesgue) Soit f € L'(E x FAQ B,u@v) (ou f € LE(E x 
F,A@B,u@v)). Alors 


(a) u(dx) p.p. la fonction y — f(x, y) est dans L'(F,B, v), 
v(dy) p.p. la fonction x — f(x,y) est dans L'(E, À, u). 


(b) Les fonctions x — f f(x, y)v(dy) et y — f f(x, y) (dx), bien définies sauf sur un 
ensemble mesurable de mesure nulle, sont respectivement dans L'(E, À, p) et L'(F, B, v). 


(c) On a 


raers J (frere = | (f ev do) 


Preuve. (a) En appliquant le théorème précédent à |f], 


f (| Fenian us = f ifldnav < o. 


cela entraîne que u(dx) p.p. 
|f (z, y) (dy) < 00 
F 


et donc la fonction y — f(x, y), dont on sait déjà qu’elle est mesurable, est dans L'(F, B, v). 
(b) En écrivant f = ft — f7 et en utilisant le théorème précédent, on voit que 


s— | tæna = f end) f rev) 


est mesurable (pour être précis, il faudrait donner une valeur arbitraire, par exemple 0, à 
l'intégrale f f(x, y) (dy) pour les x tels que f | f(x, y)| v(dy) = œ, qui forment un ensemble 
de mesure nulle). De plus, 


f| f tennas | (f evia )ud)= firidne v < o. 


(c) I suffit de faire la différence terme à terme dans les égalités 


f (J Een) f Fanor 


J (| Fen) Faer 














Remarque. L'hypothèse f € L!(u8v) est cruciale. Il peut arriver en effet que les propriétés 
(a) et (b) soient toutes les deux satisfaites, et donc que les quantités 


LC renvan)utn et f (f Fev nua) 
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soient bien définies, sans que ces quantités soient égales. Pour donner un exemple, con- 
sidérons la fonction 
f(z, y) = 2e #? — e7” 


définie pour (x, y) €]0, oœo[x]0, 1]. Alors, pour tout y €]0, 1], 
f(x,y) dz = 2 | e dx — T edr = 0 
]0,c0| 0 0 
et pour tout x > 0, 


1 1 
f(x, y)dy = 2 | e™’™® dy — | e™™dy = 
]0,1] 0 0 


e7? — e722 


On voit alors que 


? ( va e” dx) dy = 0 


OO pT _ p—2r 
| ( f(x, y)dy )dz = f y > 0. 
J0,00[ J0,1] 0 T 


Evidemment dans cet exemple on a 


I |f (z, y)| dxdy = 00. 
]0,œ0[x]0,1[ 


alors que 


En pratique, il faut se souvenir que l'application du théorème de Fubini est toujours 
justifiée pour des fonctions mesurables positives, et que dans le cas de fonctions de signe 
quelconque, il faut s’assurer que 


[f| du 8v < œ 


ce qui se fait le plus souvent en appliquant le cas des fonctions positives. 


Notation. Lorsque l'application du théorème de Fubini est justifiée (et seulement dans ce 
cas), on omet souvent les parenthèses et on écrit 


Jraer- I n Fe, y) u(da)v(dy). 


5.4 Applications 


5.4.1 Intégration par parties 








Soient f et g deux fonctions mesurables de R dans R localement intégrables (i.e. intégrables 
sur tout compact pour la mesure de Lebesgue). On pose pour z ER, 


at o Sioa f(t) dt six >0 
Pe)= | soa = nE 


cle)= | g(t) dt. 
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Alors, pour tous a < b, 


F(b)G(b) = af FAG(t)dt + i F(t)g(t)dt. 


On voit facilement que cette égalité équivaut à 


f FOCO- = f FO- FOI dt 


Pour établir cette dernière égalité, on écrit 


Tm 
Cu a 
= 
AET, 
~ 
Nr 
ae. * 
Q 
P 
~ 
Nr 
| 
Q 
ME NE 
Q 
Nr 
be" S 
a 
& 
Il 
~~ 
o~ 
= 
ATN 
~ 
Nr 
ITS 
T= 
Le 
Se 
LA 
a 
Ù 
Miaa 
a 
Ra 


|l |l 
> ~ 
S S 
TROUS 
m 
o~ 

ns 

= 

M) 

IA 

A 

= 

=K 

A 

Dat 

T 

x 

a 
Ne 

en 

~ 


Dans la troisième égalité on a appliqué le théorème de Fubini-Lebesgue à la fonction 


pls, t) = lisce f (t)g(s) 


en observant que, grâce au théorème de Fubini-Tonnelli, 


x lp(s, t)|dsdt < J IFÆllg(s)|dsdt = G DIDIER Ig(s)lds) < œ 


5.4.2 Convolution 





Si f et g sont deux fonctions mesurables sur R°, la convolution 


f* g(a )= f fe-w 


est bien définie à condition que 


[rte nat du < se: 


Dans ce cas, l’invariance de la mesure de Lebesgue par translation et par la symétrie y — —y 
entraîne aussitôt que g * f(x) est bien définie et g x f(x) = f x g(x). 
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Proposition 5.4.1 Soient f,g € L!(R1, B(R‘), A). Alors, pour À presque tout x € R, la 
convolution f x g(x) est bien définie. De plus, f x g € L'(À) et | f x gli < [flhllglh. 


Remarque. Cela a bien un sens de dire qu’une fonction définie À presque partout est dans 


L\()) : on peut choisir de manière arbitraire le prolongement sur l’ensemble où la fonction 
n’est pas définie. 


Preuve. D’après le théorème de Fubini-Tonnelli, 


f (f re-do) = f (f re- oloold)a 
n O a 
= (f 1) ( f IFE) 


A 
8 


ce qui montre que 
JU -Dllototat de pp: 
R 


et donne la première assertion. Pour la seconde, on utilise encore le calcul précédent pour 
écrire 


a |f x g(x)ldx < a qe IF — HlO lt) de = |flillglh < oo. 














La proposition suivante donne un autre cadre dans lequel on peut considérer la convolu- 
tion de f et g. 


Proposition 5.4.2 Soit p € [1,œ{, et soit q €]1,œ0] tels que re = 1. Soient f € 
Le ((R2, B(R?), à) et g € LR, B(R°), À). Alors, pour tout x € R°, la convolution f x g(x) 
est bien définie et f x g est uniformément continue et bornée sur R°. 





Preuve. DL’inégalité de Hölder donne 


fFe- Doldy (fire Pay) lol = Illae 


Cela donne la première assertion et montre aussi que f x g est bornée par ||F|lpllgllg Pour 
l’uniforme continuité, on utilise le lemme suivant. 











Lemme 5.4.3 Notons o,(y) = y —x. Pour f € LP(R, B(R‘), À), p € [1, co|, l'application 
x — foa, est uniformément continue de R? dans LP(R, B(R‘), A). 
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Si on admet le lemme, il est facile de compléter la preuve de la proposition : pour 
x,æ! € Ré, 





|f * g(x) — f x g(x)| 


IA 


[HG -0 - Fæ — vllo) dy 
lala f æ- -Fe - né)” 


llglla |f © o-z — fo col]lp 


IA 


et on utilise le lemme pour dire que || foo_,— foo_||, tend vers 0 quand x — x’ tend vers 
0. 


Preuve du lemme. Supposons d’abord f € C.(Rĉ). Alors, 


Juoa-poarae f Ife-2)- fe- nPa= | IO- He- (4-2) 


qui tend vers 0 quand y — x — 0 par convergence dominée. Dans le cas général, on peut 
trouver une suite fa € C.(IR1) qui converge vers f dans LP(À) (cf Chapitre 4). Alors 








|f © ox — f © ol» < see hole ls Cz — fn © Cyllp + lfa © oy — F © cyllp 
= 2f — fallo + |l fn © ox — fn © Oyllo: 
Pour € > 0, on choisit d’abord n tel que || f — fallop < £/4, puis ô > 0 tel que || fn © o, — fn © 


Oyllp < €/2si |x—y| < ô. Les inégalités précédentes montrent alors que || f oos — foo,|, < € 
si [x — y| < ô. 

















Approximations de la mesure de Dirac. On dit qu'une suite w, dans C,(Rĉ) est une 


approximation de ôo si : 
o Il existe un compact K tel que supp(w,) C K pour tout n. 


e Pour tout n, Yn > 0 et 


k Pnlx)dz = 1. 


lim Pnlz)dz = 0. 


PT J {le>8} 


e Pour tout ô > 0, 








Il est facile de construire des approximations de 60. Si y : RE — R, est une fonction 
continue à support compact telle que f w(x)dx = 1, il suffit de poser 





Pn(z) = nép(nx), xeR. 


On peut même s’arranger pour que les fonctions Yn soient de classe C° : prendre par 
exemple 


1 
= se e 
pla) c exp ( E. {le1<1} 


la constante c > 0 étant choisie pour que la condition f w(x)dx = 1 soit satisfaite. 
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Proposition 5.4.4 Soit (pn) une approximation de ôo. 

(i) Si f : RE — R est continue, on a Yn * f — f quand n — œ, uniformément sur tout 
compact. 

(i) Si f € LP (R?, B(R°), À), avec p € [1,00], on a pn * f — f dans LP. 

















Preuve. La partie (i) est facile à établir, en écrivant 


Pn * f(x) = f(x — y)pnly)dy + f(x — y)pnly)dy 


lyl<ô lyl>6 





et en utilisant la continuité de f. Pour la partie (ii), on observe que si f, g € LP(RA, À), 


LC ete - DIU) - sd) à 
JC ete - DO- atér) à 


IA 


| [On * f(x) — Pn * g(x)Pdx 


IA 


II II 
e A 
= = 
& 
| 
p= 
S 
LE 
ITS 
— 
& 
Za 
8 
| 
= 
Q 
8 
7 
a 
& 


(y) — g(y)l’dy 


où la deuxième inégalité est une conséquence de l'inégalité de Jensen (observer que 4, (x — 
y)dy est une mesure de probabilité). Cette majoration permet de se ramener au cas où 
f € CR‘), et alors le résultat découle de (i) et du théorème de convergence dominée. O 





Application. En dimension d = 1, on peut prendre 
Pn(E) = cnl — 27)" Last} 


où la constante Cn est choisie pour que f w,(x)dx = 1. Soit alors [a,b] un intervalle contenu 
dans ]0, 1[, et soit f une fonction continue sur {a, b]. On peut facilement prolonger f en une 
fonction continue sur R et à support compact contenu dans [0,1] (prendre par exemple f 
affine sur les intervalles [0, a] et [b, 1]. Alors, 





On + F(E) = Cu l E E E) 


uniformément sur |a, b]. Pour x € [a,b], on peut clairement enlever l’indicatrice 143_y<1}, €t 
on voit que f est limite uniforme sur [a,b] de polynômes (théorème de Stone-Weierstrass). 


5.4.3 Calcul du volume de la boule unité 








On note ici B4 la boule unité fermée de IR‘, et Aq la mesure de Lebesgue sur Rê. En vue de 
calculer yq = Aa( Ba) on observe d’abord que pour tout a > 0, l’image de À4 par l'application 
x — ax est a 4: pour tout A € B(R°), 





Aala ™™ A) = a “\4(A) 
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(il suffit de le vérifier lorsque A est un pavé, et alors c’est évident). En particulier, 
Aala Ba) = afal Ba). 


Ensuite on écrit en utilisant le théorème de Fubini, si d > 2, 
Ya = I lg, (x)dz = 1 Late +a2<1} 47 yish dza 
Rd Rd 


1 
T (A Lia24ta2 <1-r2} 01 e. da )dxa 
1 
f di (y 1— TB) dza 
—1 


1 
= a | (1 — 22) 02 dra 


1 
= Ya-1la 1 


à condition de poser pour tout entier n > 0, 


1 
pe I (1— r2)/24qx. 


1 


Une intégration par parties simple montre que pour n > 2, 


n 


= —— „2. 
n +1 


n 


En utilisant les cas particuliers Tọ = 2, 1; = 7/2, on en déduit par récurrence que pour tout 


d > 2, 
2T 
Ila-ila -2 = —. 
d—11d—2 d 


En conséquence, pour d > 3, 


27 
Ya = La-114-2Ya-2 = V2 





A partir des cas particuliers %1 = 2, Y2 = yılı = 7, on en déduit 





k k 


T 
Yək = P’ Y2k+1 = Eeee a 


ce qu’on peut regrouper dans la formule 
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Chapitre 6 


Mesures signées 


A la différence des chapitres précédents, on considère ici des mesures signées, pouvant prendre 
aussi bien des valeurs négatives que des valeurs positives. Le résultat principal de ce chapitre 
est la décomposition de Jordan, qui fournit une écriture minimale d’une telle mesure signée 
comme la différence de deux mesures positives portées par des ensembles mesurables disjoints. 
A titre d'application, on établit un théorème important d'analyse fonctionnelle, qui affirme 
que pour deux exposants p et q conjugués ($ + : = 1) l’espace LA est le dual topologique de 
LP. 


6.1 Définition et variation totale 
Définition 6.1.1 Soit (E, A) un espace mesurable. Une mesure signée u sur (E, À) est une 
application p : A — R telle que (Ø) = 0 et que pour toute famille (An)nen d'éléments 
disjoints de À, la série 

X u(An) 


nEN 


a( UAn) = Data). 


nEN neN 





converge absolument, et 


Théorème 6.1.1 Soit u une mesure signée sur (E, A). Pour tout À € À, posons 
[u|(A) = sup (> [&(An)| : À = © An; An disjoints) 
neN neN 


où le supremum porte sur toutes les écritures de À comme réunion d’une famille dénombrable 
(An)nen de parties mesurables disjointes. Alors |u| est une mesure positive finie sur (E, A), 
et pour tout A € À, |u( A)| < |u|(A). 


Preuve. On montre d’abord que |u| est une mesure positive. Soit (B;);en une famille de 
parties mesurables disjointes, et B = (J;en Bi. Par définition, si t; € [0, |u|(B:)[ (ou t; = 0 


69 


dans le cas |1|(B;) = 0), on peut trouver une partition! mesurable B; = [J 


que 
D AI 


nEN 


nen 4ni de façon 


Alors (An i)nien est une partition dénombrable de B, et donc 


ul(B) > DCS lu(Anil > dt. 


iEN neN ieN 


Puisque les t; peuvent être choisis arbitrairement proches des |u|(B;), il en découle que 


CB) > X` |a|(B 


iEN 


Pour obtenir l'inégalité inverse, soit (4, ),en une partition de B. Alors 


D_l(A) DID RAND) 


nEN nEN ieN 


YJ a(n N Bi) 


neN iEN 


= EY (4N B) 


iEN neN 


< D HE 


iEN 


IA 


la dernière inégalité découlant du fait que les 4, N B;, n € N forment une partition de B;, 
et de la définition de |u|(B;). En prenant le supremum sur les partitions (An)nen de B, on 


trouve 
CB) < X` lal(B 
ieN 


ce qui achève de montrer que |u| est une mesure positive. 
Comme l'inégalité |u(A)| < |u| (A) est immédiate, il reste à établir que |u| est une mesure 
finie. 


Lemme 6.1.2 Si A € A est tel que |u|(A) = œ, alors il existe deux parties mesurables 
disjointes B et C telles que A = BUC et |u(B)| > 1, [ul(C) = œ. 


Preuve du lemme. Puisque |u|(A) = œo, on peut trouver une partition mesurable A = 
Unen An de A de façon que 


S u(An)l > 2(1 + u(A)). 


nEN 


1On fait un abus de langage puisque dans la définition usuelle d’une partition les éléments de la partition 
sont tous non vides, ce qui n’est pas forcément le cas ici. 
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On a alors par exemple 
X u(An)* > 1+ lu(A) 


nEN 


(le cas symétrique J` en H(An) > 1+ |u(A)] se traite de la même manière). On pose alors 


Be, O E 


{n:u(An)>0} 


de façon que 
K(B) = DA) > 1+ lu(A)| 


nEN 


De plus, si C = A\B, 


|e(C)| = lu(A) — u(B) > Iu(B)] — |e(A)| > 1. 


Par ailleurs, puisque A = B UC et que |u| est une mesure on doit avoir |u|(B) = œ ou 
[u(C)| = œ, ce qui donne le résultat du lemme quitte à échanger les rôles de B et C si 
nécessaire. 

Nous pouvons maintenant compléter la preuve du théorème. On suppose que |u|(E) = 
oo. Alors, on peut trouver des parties mesurables disjointes B et Co avec |u(Bo)| > 1 et 
[u|(Co) = œ. En appliquant de même le lemme à Co on trouve Bı et Ci disjoints tels que 
Co = Bı U Ci, [u(B:)l > 1 et [u|(C1) = œ. Par récurrence, on construit ainsi une suite de 
parties mesurables disjointes (Bn)nen, telle que [u(B,)| > 1 pour tout n. Cela contredit le 


fait que la série 
>, H(Bn) 


nEN 














doit converger absolument, d’après la définition d’une mesure signée. On conclut que 
IHÎ(E) < œ. 














Exemple. Soit v une mesure positive sur (F, A), et soit g € L'(E, A, v). Alors la formule 


v(A) = fow 


définit une mesure signée. En effet, si A est la réunion disjointe d’une suite (An) de parties 
mesurables, légalité 


u(A) = X u(An) 


nEN 


est obtenue en observant que 


gla = Jim 9 lUuscrAn dans L}, 


d’après le théorème de convergence dominée. Nous verrons plus loin que dans ce cas |u| = 
gl: v. 
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6.2 La décomposition de Jordan 


Soit u une mesure signée sur (E, A). Alors, on vérifie immédiatement que les formules 


1 

u= JU + ul), 
© 1 

u = ul n), 


définissent deux mesures positives finies sur (E, A). De plus, u = ut — u` et |u| = yt + u7. 


Théorème 6.2.1 Soit 1 une mesure signée sur (E, A). Il existe une partie mesurable B de 
E, unique à un ensemble de |u|-mesure nulle près, telle que u™ = 1g- |u| et u7 = 18e + [ul 
(de manière équivalente, ut, resp. 7, est la restriction de |u| à B, resp. à B°). De plus, 
on a pour tout À € À, 


H(A) =u (ANB) = (AN B), 7 (A) =p (AN B°) = (AN B°). 
En conséquence, 


(A) = (AN B) - un (AN B’), 
|u|(A) = u+ (AN B) + (AN B’). 


Preuve. On vérifie immédiatement que u™ < |u| et 7 < |uļ, et donc les mesures u” et 
u` sont absolument continues par rapport à |u|. D’après le théorème de Radon-Nikodym, 
il existe deux fonctions mesurables positives (finies) hı et ho telles que u = hı - |u| et 
UT = hs- |u|. Puisque u* < |u| et u~ < |ual, on sait que 0 < hı <1et0< h< 1. 

Si h = hı — hs, on a alors, pour tout À € A, 


a(A) = p#(4) — E je (ha — ho) dl. 


Il est facile de déduire de cette égalité que |h1 — h2] = 1, |u| p-p. En effet, soit r < 1, et soit 
(Ay)nen une partition mesurable de E, = {x € E : |h1(x) — ha(x)| < r}. Alors 


Eu = E| f, 0 — aatal 
< S f) Iha — haldini 


nE 


< D orle) 


nE 


= r|aļ|(E£,). 








De la définition de |u|, il découle alors que |u|(E,) < r |u|(E,), et donc [u|(E,) = 0. Comme 
cela est vrai pour tout r < 1, on a |h1 — hə| > 1 u p.p. et l'inégalité inverse est triviale. 
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Les propriétés 0 < hı < 1,0 < ho < 1 et |h — ho] = 1 |u| p-p. entraînent que 





[u|(dx) p.p. ou bien h1(x) = 1 et ho(x) = 0, 
ou bien h1(x) = 0 et h1(x) = 0 


On pose alors B = {x € E : hi(x) = 1}. D’après ce qui précède on à hı = 13 et 
ho = 18e, |u| p-p. Cela donne les égalités u® = 13: |u| et u= = 1e - |u|. L’unicité de B est 
une conséquence de l’unicité de la densité dans le théorème de Radon-Nikodym. Les autres 
propriétés de l’énoncé sont ensuite facilement établies. 0 





Remarque. Si u = uı — u2 est une autre décomposition de u comme différence de deux 
mesures positives finies, on a nécessairement uı > u* et u2 > u`. En effet, 


(A) > m(AN B) > u(AN B) = n° (AN B) = u+ (A). 


Intégration par rapport à une mesure signée. 


Si f € L'(E, A, |u|), on définit 


ras ftat- fran = f Es- 1da 


Il est alors immédiat que 
|f taus fifin 


Proposition 6.2.2 Soitv une mesure positive sur (E, A), soit g € L'(E, A, v), et soit u la 
mesure signée définie par 
u(A) = | gdv. 
A 


Alors |u| = |g|-v. De plus, pour toute fonction f € L'(E, A, [ul), on a fg € L'(E, A, v)), 


et 
fran f toa 


Preuve. Avec les notations du théorème précédent, on a pour tout AE A: 


H(A) = MANB) aan 89 = f gw- f sd = | ghdv 
ANB AQB A 


en posant h = 1g — 1pe. En prenant A = {x € E : g(x)h(x) < 0}, on déduit facilement de 
cette égalité que gh > 0, v p.p. Donc gh = |gh| = |g], v p.p., d’où 


\ul(A) = i \gldr. 


Jurau= f ifilole 
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Ensuite, on a 


et donc f € L'(lu}) = fg € Liw). L'égalité 


f iu= f tow 


est vraie par définition si f est étagée. Dans le cas, général, on utilise le fait qu’on peut 
écrire f = lim fa, où les fonctions f, sont étagées et dominées en valeur absolue par |f|. Le 
théorème de convergence dominée appliqué à u*, = et v donne le résultat voulu. 0 


Le théorème de Radon-Nikodym pour les mesures signées. 


Soit v une mesure positive, et soit u une mesure signée. On dit que u est absolument 
continue par rapport à v (notation : u & v) si 


VAE A, v(A)=0=> u(A)=0. 


Théorème 6.2.3 Soit u une mesure signée et soit v une mesure positive o-finie. Les trois 
propriétés suivantes sont équivalentes : 


G uv. 
(ii) Pour tout € > 0, il existe Ô > 0 tel que 


VAEA, v(A)<ô=> lul(A)< €. 
(ii) I existe g € L!(E, A, v) telle que : 


VAEA, u(A)= f gdv. 
A 


Preuve. (ii)=(i) est évident. Montrons (i)={(iü). Si u & v, on aussi ut & v et y X v, et 
donc le théorème de Radon-Nikodym pour les mesures positives permet d'écrire u™ = gı + V 
et UT = g2- v avec g1, 92 > 0, f gdv = u*(E) < œ et f gadv = p (E) < œ. On obtient 
ainsi (iii) avec g = g1 — 92- 

Il reste à montrer (ii)=(ii). D’après la proposition précédente, on a |u| = |gļ- v. De 
plus, le théorème de convergence dominée entraîne que 


lim |g| dv =0. 
PR J{lgl2n} 


Donc, si € > 0 est fixé, on peut choisir N assez grand de façon que 


E 
f [g| dv < =. 
{2N} 2 


Alors, en prenant ô = £€/(2N), on a, pour tout À € A tel que v(A) < 6, 


Ea E 
Ma- fws wwf inavsS+n ee 
A {IgI>N} AN{IgI<N} 
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6.3 La dualité L? — L43 


Soit v une mesure positive sur (E, A). Soit p € [1,æ)] et soit q l’exposant conjugué de p. 
Alors, si on fixe g € LI(E, A, v), la formule 


SN) = | fod 


définit une forme linéaire continue sur LP(E, A,v). En effet, l’inégalité de Hôlder montre 
d’une part que ®,(f) est bien définie, d'autre part que 


[B (PI < Cs IF Ilp 


avec Cy = ||g||q On voit aussi que la norme opérateur de ®,, définie par 


NBI = sup |®(f)], 
Ifllp<1 


vérifie ||®;]| < |lglla- 

La question est alors de savoir si l’on obtient ainsi toutes les formes linéaires continues 
sur L” (E, A, v) (dans le cas p = q = 2, la théorie des espaces de Hilbert nous dit déjà que la 
réponse est oui). Le théorème suivant donne la réponse lorsque p < oo. 


Théorème 6.3.1 Soit v une mesure o-finie sur (E, A), soit p € |1, œ! et soit q l’exposant 
conjugué de p. Alors, si ® est une forme linéaire continue sur LP(E, A, v), il existe une 
unique g € LI(E, A, v) tel que, pour toute f € L (E, A, v), 


B) = | fod 
De plus la norme opérateur de ® est 


NBI = Igle 


Aves les notations précédant le théorème, on voit que l’application g — ®, permet 
d'identifier L4(v) au dual topologique de LP(v) (c’est à-dire à l’espace vectoriel des formes 
linéaires continues sur LP (v), muni de la norme opérateur). Nous verrons en remarque que 
cette propriété ne subsiste pas dans le cas p = co. 


Preuve. Supposons d’abord v(E) < œo. Alors, pour tout À € À, posons 
H(A) = (14), 


ce qui a bien un sens puisque 14 € LP(v). On commence par vérifier que u est une mesure 
signée sur (E, A). Soit (An)nen une famille dénombrable de parties mesurables disjointes. 
Si À désigne la réunion des À,, on a 


u= ja Du 


n<k 
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dans {?(v) (par convergence dominée, facilement justifiée puisque la fonction 1 est dans 
LP(v)). En utilisant la continuité de ®, on obtient ainsi 


CS non 
n<k 


n<k 


La convergence absolue de la série $` u(A,) est une conséquence : en notant 4} = À, si 
(An) > 0 et 4° = Ø sinon, et À’ la réunion des A’, on a 


DA) = D u(A,) = lim D (A) = (4) < co, 


n<k 


et de même pour les termes négatifs de la suite (4(A,)). Une fois acquise la convergence 
absolue de la série, légalité (A) = ÿ°, u(An) découle de ce qui précède. 

Si A € A et v(A) = 0, on a 14 = 0 dans LP(E, A, v) et donc (A) = (114) = 0. Donc 
u & v et le théorème précédent montre qu’il existe une fonction g € L'(E, A, v) telle que 


VAE À, Bla) = a(4)= | gav 
A 
L'égalité 
D(H) = | fodv 


est vraie par linéarité lorsque f est étagée, puis lorsque f est seulement mesurable bornée 
puisqu’une telle fonction est limite uniforme (donc dans L?(v) parce que v est finie) de 
fonctions étagées. 

Montrons maintenant que g € L(v). 


e Si p = 1, alors pour tout À € A, 
| f od = 801 < ISN alh = 1A 


ce qui entraîne facilement que |g| < ||@®]|, v p-p. (pour le voir considérer A = {g > 
BI +£} ou A = {g < —||®|| —e}), et donc [gl < [IP 


e Si p €]1, œ], on pose En = {x € E : |g(x)| < n}, puis fn = 15,19! Ysigne(g). Comme fn 
est bornée, on a 


le |g|dv = ET = (fn) < I| I fall = ||®| (f glav)”, 


n 
d’où 


| iglidv < ljē]. 


n 


En faisant tendre n vers oo, on trouve par convergence monotone que ||glla < ||®||. 
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Dans les deux cas, on a obtenu que g € L'(v) et |gl, < D]. Vus comme fonctions de 
f € LP(v), les deux membres de l'égalité 


D) = | fodv 


sont des fonctions continues sur L” (v) qui coïncident lorsque f appartient au sous-ensemble 
dense des fonctions mesurables bornées. Elles coïncident donc partout. 

Par ailleurs, comme expliqué avant l’énoncé de théorème, l'inégalité de Hôlder entraîne 
que |P| < ||gllq, et comme l'inégalité inverse a été obtenue ci-dessus, on a ||®]|| = |lgllg 

Enfin, l'application qui à g € L{(v) associe la forme linéaire f — f fgdv est une 
isométrie de L4(v) sur le dual topologique de L?” (v) (i.e. l’espace des formes linéaires contin- 
ues sur L”(v)) et est donc nécessairement injective. Cela donne l’unicité de g dans l’énoncé 
du théorème. 

Il reste à traiter le cas v(E) = œo. Dans ce cas, on peut écrire E comme la réunion d’une 
famille dénombrable disjointe (En)nen de parties mesurables telles que v( En) < pour tout 
n. Notons v, la restriction de v à En. Alors l’application f — flp, induit une isométrie 
de L” (vn) sur un sous-espace de Z?(v). En remplaçant v par v, on peut donc appliquer la 
première partie de la preuve à la forme linéaire continue ®, définie sur LP (vp) par 


Pa(f) = Dle). 


Il existe donc une fonction gn € L4 (v,) telle que, pour toute fonction f € LP (vn), 


(flen) a J fo dv. 


Quitte à remplacer gn par gnlr, on peut supposer que gn = 0 sur E$, et réécrire le résultat 
précédent sous la forme 


Plin) = | fond 
pour toute fonction f € LP(v). 
Si f € LP(v),ona 
f= dim > fle, dans L’ (v), 


n<k 


ce qui entraîne 


®(f) = lim (Du) dv. 


k— oo 
n<k 


Par ailleurs, de l’inégalité 


JE) = 85 15) < Ilf 
n<k n<k 
on déduit grâce aux mêmes arguments que dans le cas où v(E) < œ que, pour tout entier 


k> 1, 
ID gnlle < PI. 


n<k 
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Posons maintenant pour tout x € E, 


gx) = Y gu(x) 


nEN 


(il y a eu plus un terme non nul dans la somme pour chaque x). Si q = co, l'inégalité 
précédente montre que [gl < [D]. Si q < co, la même inégalité donne 


pie CE q q 
ftw = 5 | inta = jim Y f lona < jol. 
nEN n<k 
Dans les deux cas on a g € LA(v). Enfin, 


D) = Jin (D) | rod 


n<k 


où dans la deuxième égalité l’application du théorème de convergence dominée est justifiée 
par la majoration | D „eg In| < lgl- 

L'égalité || || = ||gi,, et l’unicité de g sont maintenant obtenues par les mêmes arguments 
que dans le cas où v(E) < oo. oO 


Remarque. Lorsque p = œ, le résultat du théorème est faux en général : il existe des 
formes linéaires continues sur L®(E, A, v) qui ne peuvent pas se représenter sous la forme 
(f) = f fgdv avec une fonction g € L'(E, A, v). Considérons le cas de £% , qui est l’espace 
des suites bornées a = (az)xen de réels, muni de la norme |lal, = supap. Soit H le sous- 
espace (fermé) de £% défini par 


H = {ace l: Jim ax existe}, 





et définissons ® : H — R par 


(a) = Jim ap. 


Evidemment |(a)| < llall. Le théorème de Hahn-Banach permet alors de prolonger ® à 
une forme linéaire sur 4%, de façon que la propriété |(a)| < |jallo reste vraie pour tout 
a € {®. Il est facile de voir qu’on ne peut pas représenter ® sous la forme 


(a) = ` akbk 


kEN 


avec un élément b = (b)gen de 4t. En effet, si tel était le cas, en considérant pour tout 


n € N l'élément a™ de {® défini par a!” 


= l{k=n}, On trouverait, pour tout n € N, 
bn = #(a™) = 0, 


ce qui est absurde. 
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6.4 Le théorème de représentation de Riesz 





Dans tout ce paragraphe, nous supposons que E est un espace métrique localement compact 
séparable. On note Co( E) l’espace des fonctions continues sur E qui tendent vers 0 à l’infini : 
f € Col E) si et seulement si f est continue et si pour tout € > 0 il existe un compact K de 
E tel que |f(x)| < € pour tout x € E\K. L'espace Co(E) est un espace de Banach pour la 
norme 


IFI] = sup | f(x): 
z€cE 


Si u est une mesure signée sur (E, B(E)), l'application 


DH) = f fdu, f ECKE) 


définit une forme linéaire continue sur Co(E). De plus, cette forme linéaire est continue 
puisque 


BCP) < f fdln < lul(E) IFI 


Cette inégalité montre même que |||| < |u|(E). 


Théorème 6.4.1 Soit ® une forme linéaire continue sur Co(E). Il existe alors une unique 
mesure signée u sur (E,B(E)) telle que 


VfEC(E), a) = | fdn 


Nous renvoyons au chapitre 6 de Rudin [7] pour une preuve qui traite en fait le cadre 
complexe plus général. 


Remarque. L'espace M(E) des mesures signées sur E est un espace vectoriel, et il est facile 
de vérifier que l'application u — |u|(E) définit une norme sur cet espace vectoriel. De plus, 
M(E) est complet pour cette norme. Le théorème précédent peut être alors reformulé en 
disant que M(E) est le dual topologique de Co( E). 

Lorsque E est compact, l’espace Co( E) coïncide avec l’espace C (E) des fonctions con- 
tinues bornées sur E, et donc M(E) est le dual de C (E). Cette assertion devient fausse 
lorsque Æ n’est pas compact, par exemple lorsque E = R. Dans ce cas, il existe des formes 
linéaires continues sur C;(E) qui ne se représentent pas par des mesures signées (on peut en 
construire en adaptant l’exemple de la fin de la partie précédente). 





79 


80 


Chapitre 7 


Formule de changement de variables 
et compléments 


La formule de changement de variables identifie l’image par un difféomorphisme de la mesure 
de Lebesgue sur un ouvert de R?. Après le théorème de Fubini, c’est le deuxième outil 
fondamental de calcul des intégrales. Comme application particulièrement importante, on 
donne ici la formule d'intégration en coordonnées polaires dans R‘, ce qui conduit aussi à 
introduire la mesure de Lebesgue sur la sphère unité. 








7.1 La formule de changement de variables 


Nous commençons par traiter le cas particulier important d’une application affine. 





Proposition 7.1.1 Soit b € R? et soit M une matrice d x d à coefficients réels inversible. 
Définissons f : R? — R! par f(x) = Mx +b. Alors, pour tout borélien A de R$, 











A(F(4)) = |det(M)| (A). 





Remarque. Si M n’est pas inversible, f(A) C f(RŸ) est contenu dans un hyperplan, qui 


est de mesure de Lebesgue nulle (exercice !). 

Preuve. Remarquons d’abord que f(A) = (f-!)-1(A) € B(R{) si A € B(R1). Grâce à 
l’invariance par translation de la mesure de Lebesgue, on se ramène au cas b = 0. Dans ce 
cas, on a pour tous a € R? et A € B(R°), 


A(F(a + A)) =A (a) + f(4)) = AC (A), 











ce qui montre que la mesure À — À(f(A)) (mesure-image de À par f”-!) est invariante par 
translation. Donc il existe une constante c telle que, pour tout A € B(R°), 





Il reste à montrer que c = |[det(M\)|. 
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Si M est une matrice orthogonale, et By désigne la boule unité fermée de Rê, on a 
(Ba) = Ba, d'où il découle aussitôt que c = 1 = |det(M)| dans ce cas. 

Si M est une matrice symétrique définie positive, alors on peut trouver une matrice or- 
thogonale P telle que ‘PM P soit diagonale avec coefficients diagonaux a; > 0, i € {1,...,d}. 
Alors, 


f(P(10,19)) = {MPa : x € [0, 1]°} = {Py : y € [0 e4}, 
et donc, en utilisant le cas orthogonal, 
c = cA(P (O, 19) = AFP, 119) = A( {Py : y € [TI0.01}) =A( 004) = JIo 


Dans ce cas on trouve encore c = |det(M)|. 

Enfin, dans le cas général, on remarque qu’on peut écrire M = PS, où P est orthogonale 
et S est symétrique définie positive (prendre S = V’MM et P = MS7!). En utilisant les 
deux cas particuliers ci-dessus, on trouve aussitôt : 


c = |det(P)| |det(S)| = |det(M)|. 

















Soient U et D deux ouverts de R{ On dit qu’une application y : U — D est un 
difféomorphisme de classe CT si y est bijective et de classe Ct sur U et si y7! est aussi de 
classe C! sur D. On sait qu’alors la dérivée w'(u) est inversible, pour tout u € U. 


Théorème 7.1.2 Soit p : U — D un difféomorphisme de classe Ct. Alors pour toute 
fonction borélienne f : D — R+, 





Lrerar = f ADNa, 


où Jolu) = det(p'(u)) est le Jacobien de p en u. 
Preuve. Par les arguments habituels (passage à la limite croissant) on se ramène au cas où 


f est étagée positive, puis au cas f = 14, A étant un borélien de D. Dans ce cas, légalité 
du théorème s'écrit : 


NA) = ldu 

p71(4) 

Quitte à remplacer À par w7!(A), il suffit de montrer que, pour tout borélien A de U, 
NPA) = Loto) du (71) 

(Remarquer que (A) = (p71) 1(A) est borélien.) 


82 


Lemme 7.1.3 Soit K un compact de U et soit £ > 0. Alors on peut choisir ô > 0 assez 
petit de manière que, pour tout cube C de faces parallèles aux axes, de centre uo € K et de 
coté de longueur inférieure à ô, 


(= €)|Je(uo)| AC) < A(y(C)) < (1 + £)|Jp(uo)] AC). 


Preuve du lemme. En utilisant la continuité de y’, on voit qu’on peut choisir ô > 0 assez 
petit pour que d’une part ô < = dist(K, U°) et d'autre part, pour tout uo € K et tout u € R? 
tel que |u — uo| < dô, 





|p(u) — pluo) — p'(uo) : (u — uo)| < Elu — uol. 





Notons f(v) = (uo) + p'(uo) : v pour v € R?. On voit que, si |u — uo| < dô, 
p(u) = f(u — uo) + h(u, uo), 
avec |h(u,uo)| < ceļu — uo|. En prenant g(u, uo) = g'(uo) ! : h(u, uo), on trouve que 


plu) = f(u — uo + g(u, uo)), 


où |g(u, uo)| < alu — uol, avec a := sup{[lg'(v) |; v € K} < œ. 
Soit maintenant C' un cube centré en w et de coté r < ô. Il découle de ce qui précède 
que 


p(C) € f((1 + dae)C), 
où Č est le cube translaté de C centré en 0. Grâce à la proposition ci-dessus, il vient alors 
A(p(0)) < A(F((L + dae)C)) = Idet ’(uo)| A((1 + das)O) = (1 + dae) Je (uo)| A(C), 


ce qui donne la majoration souhaitée. La preuve de la minoration est analogue : on montre 
que pour une constante c bien choisie, on a 


P(E- de) ce, 


d’où 


f((— de)C) € (C) 


et on conclut de la même manière. 














On revient à la preuve du théorème. Soit n > 1 un entier. On appelle cube élémentaire 
d'ordre n tout cube de la forme 


d 
C = [[ 142, (k; +1)27"], k;ez. 


j=1 


On note C, l’ensemble des cubes élémentaires d’ordre n. 

Soit Co un cube élémentaire d’ordre no fixé, tel que Co C U, et soit € > 0. Fixons n > no 
assez grand pour que d’une part la conclusion du lemme soit vraie pour K = Co et ô = 27", 
et d’autre part, pour tous u,v € K tels que |u — v| < dô, 


Q—e)e{u)l< Jo) < ( +e)J(u)|. (72) 
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Alors, en notant xç le centre d’un cube ©, 


A(g(Co)) = X AC) 


CECn 
CCCo 
< (1+e) D ENAC) 
CECn 
CCCo 
Lie y feldu 
Cecn YC 
CECo 


(+8)? | |J(u)| du. 
Co 


On a utilisé le lemme dans la première inégalité, et (7.2) dans la seconde. On obtient de 
même la minoration 


Comme € était arbitraire, on conclut que 
A(g(Co)) = : |Jo(u)| du. 
0 


On a donc obtenu (7.1) lorsque A est un cube élémentaire d’adhérence contenue dans A. 
Le cas général découle maintenant d'arguments de classe monotone. Notons u la mesure- 
image de la mesure de Lebesgue sur D par y7! : 


pour tout borélien A de U. Soit aussi 


HA) = | oldu 


On a obtenu que u(C) = H(C') pour tout cube élémentaire C d’adhérence contenue dans U. 
D’autre part, si U, désigne la réunion (disjointe) des cubes élémentaires d’ordre n d’adhérence 
contenue dans U N {u : |u| < n}, on a U, T U quand n — œ et u(Un) = H{U,) < œ pour 
tout n. Comme la classe des cubes élémentaires d’adhérence contenue dans U est stable par 
intersection finie et engendre la tribu borélienne B(U), on peut appliquer le dernier corollaire 
du Chapitre 1 pour conclure que u = ji, ce qui était le résultat recherché. 0 


Application à l’intégrale en coordonnées polaires. 
On prend d = 2, U =]0, œo|x] — m, r| et D = R?\{(x,0);x < 0}. Alors l'application 





w(r,0) = (rcos 6,rsin 0), (r,0)eU 
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est un difféomorphisme de classe Ct de U sur D. On calcule facilement 


deis ( cos —rsin 0 ) 


sin Ô r cos 8 


et donc J,(r,0) =r. 
Il découle du théorème que, pour toute fonction borélienne f : R? — R4, 


| f(x, y) dxdy = f f(rcos 6, r sin 0) r drd0 = f I f(r cos 8, r sin 0) r drdð. 
D U o J-r 











Comme la demi-droite négative est de mesure de Lebesgue nulle dans R?, on a aussi 


ii f(x, y) dxdy a I f(r cos 0, r sin 0) r drdð. 
R2 0 =T 


Exemple. Pour f(x,y) = exp(—x? — y?), le théorème de Fubini-Tonnelli donne d’une part 


Í: er dxdy = in e77 dx) : 


OO 


et d’autre part 


I | f(r cos 6, r sin 0) r drdû = 2r | ce" rdr = T, 
0 —T 0 
ce qui donne la valeur 


+00 3 
f e” dr = yT. 


oO 





7.2 Mesure de Lebesgue sur la sphère unité 








Dans cette partie on note À4 la mesure de Lebesgue sur R‘. Soit S% t la sphère unité de Rê : 
S! = {x E R°: |x| = 1}. 
Si A € B(S% !), on note r(A) le borélien de R? défini par 
r(A) = {rz; r € [0,1] et x € A}. 





Théorème 7.2.1 Pour tout A € B(S%1), on pose 
wa(A) = dAa(T(À)). 


Alors wa est une mesure positive finie sur SŸ%1, qui est invariante par les isométries vecto- 
rielles. De plus, pour toute fonction borélienne f : R? —R., 


a f(x)dx = f T firz)r™ dr wa(dz). (7.3) 








Enfin la masse totale de wa (volume de la sphère unité) est 
2 d/2 
Tea = 


r(4/2) 
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Remarque. On peut aussi montrer que toute mesure finie sur 9%! invariante par les 


isométries vectorielles est proportionnelle à wy. 


Preuve. Il est immédiat que wg est une mesure positive finie sur ST! : 


comme l’image de la restriction de d Aq à la boule unité By par l’application x — = 





on peut la voir 


Le 


ER 


fait que À, soit invariante par les isométries vectorielles de R? (proposition de la partie 1) 


entraîne facilement que wa l’est aussi. En effet, si y est une telle isométrie, 
MT (p7"(4))) = Alo (T(4))) = AT (4). 
La masse totale de wa est 
gi 27/2 


wals FE) = d \x( Ba) ren = T (2) 





Il reste à établir (7.3). Il suffit de traiter le cas f = 1g, où B est un borélien de] 


La formule 


(ee j j f  1p(r2)r™ dr wald) 








R4\ {0}. 


définit une mesure u sur R‘\{0} et le problème est de montrer que u = A4. Considérons 


d’abord le cas où B est de la forme 


B = {x E RÄ {0}; a < |z| < bet Gi sAr 





où A est un borélien de S% t, et 0 < a < b. Alors, 





b d 
u(B) = wal) | rl dr = 7 wal A). 
Pour calculer À4(B), notons à = $ €]0, 1[, et pour tout entier n > 0 posons 
F,(A) = {y = rz; at! <r <a” etg € A}. 


Alors, Aa(Tn(A)) = a”tAa(To(A)) et par ailleurs 








MEA) = OA(A) 
Il en découle aussitôt que | 
MEIA) = (1 = aP AEA) = TE (4) 
apine Be dE A). 
dal B) = W'aa(Te(A)) = = ui(A) = a (8) 


Finalement, la classe des ensembles B de la forme ci-dessus est stable par intersections 
finies, et on voit facilement qu’elle engendre la tribu borélienne sur R{\{0}. Les arguments 
de classe monotone habituels montrent alors que u = Aa. 























Si f : R? — R+ est une fonction radiale, au sens où f(x) = f (|x|), le théorème montre 
que 


wead era 
(Gode = oaf Her ar, 


avec ca = wal S% t). 
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Partie II 


Probabilités 
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Chapitre 8 


Fondements de la théorie des 
probabilités 


Ce chapitre introduit les notions fondamentales de la théorie des probabilités : variables 
aléatoires, espérance, loi, moments de variables aléatoires, fonctions caractéristiques, etc. 
Puisque un espace de probabilité n’est rien d’autre qu’un espace mesurable muni d’une 
mesure de masse totale 1, beaucoup de ces notions correspondent à ce qui a déjà été vu dans 
le cadre de la théorie de l’intégration. Par exemple une variable aléatoire n’est rien d’autre 
qu'une fonction mesurable, et la notion d’espérance coïncide avec l'intégrale. Cependant, le 
point de vue de la théorie des probabilités, qui est expliqué ci-dessous, est bien différent, 
et une difficulté importante est de comprendre ce point de vue. Ainsi, la notion de loi, qui 
est un cas particulier de la notion de mesure-image, devient-elle maintenant fondamentale 
car elle permet d'évaluer la probabilité qu’une variable aléatoire “tombe” dans un ensemble 
donné. 


8.1 Définitions générales 


8.1.1 Espaces de probabilité 


Soit (Q, A) un espace mesurable, et soit P une mesure de probabilité sur (Q, A). On dit 
alors que (Q, A) est un espace de probabilité. 

Un espace de probabilité est donc un cas particulier d'espace mesuré, pour lequel la masse 
totale de la mesure est égale à 1. En fait, le point de vue diffère de la théorie de l’intégration : 
dans le cadre de la théorie des probabilités, on cherche à fournir un modèle mathématique 
pour une “expérience aléatoire”. 


e Q représente l’ensemble de toutes les éventualités possibles, toutes les déterminations du 
hasard dans l’expérience considérée. 


e À est l’ensemble des “événements”, qui sont les parties de Q dont on peut évaluer la 
probabilité. Il faut voir un événement À € A comme un sous-ensemble de Q contenant 
toutes les éventualités w pour lesquelles une certaine propriété est vérifiée. 


91 


e Pour A € A, P(A) représente la probabilité d’occurrence de l’événement A. Dans les 
premiers traités de théorie des probabilités, longtemps avant l’introduction de la théorie 
de la mesure, la probabilité P(A) était définie de la manière suivante : on imagine 
qu’on répète l’expérience aléatoire un nombre N de fois, et on note N4 le nombre 
de répétitions pour lesquelles l'événement AÁ est réalisé; alors, la proportion N4/N 
converge quand N — œ vers la probabilité P(A). Nous verrons plus loin le lien entre 
cette définition “historique” et l’approche moderne. 


Exemples. (1) On lance un dé deux fois : 


A 
Q={12...,67, A=P(Q), P(A)= D, 
Le choix de la probabilité correspond à l’idée que tous les résultats possibles pour les deux 


tirages sont équiprobables. 


(2) On lance le dé jusqu’à obtenir un 6. Ici le choix de Q est déjà moins évident. Comme 
le nombre de lancers nécessaires n’est a priori pas borné, le bon choix est d'imaginer qu’on 
fait une infinité de lancers : 

Q= {1,2,...,6} 


de sorte qu’un élément de Q est une suite w = (w1, w2, .. .) qui donne les résultats des tirages 
successifs. La tribu A sur Q est la tribu-produit définie comme la plus petite tribu rendant 
mesurables tous les ensembles de la forme 


{w : w = i, w2 = i2, ..., Wn = İn} 


où n > Let i,..., in € {1,2,...,6} (A coïncide aussi avec la tribu borélienne pour la 
topologie produit sur Q). Enfin P est l’unique mesure de probabilité sur Q telle que, pour 
tout choix de n et de i1,...,în, 


P({w : wi = i1, w2 = in... Un = in}) = (5) s 


L’unicité de P est une conséquence simple du lemme de classe monotone. L'existence est 
un cas particulier de la construction de mesures sur des produits infinis. On peut aussi 
construire P facilement partir de la mesure de Lebesgue sur [0,1] : si à tout réel x € [0,1] 
on associe la suite (£x)ren* € Q telle que x = D, (Ex — 1) 677 (cette suite est unique pour 
presque tout x), la probabilité P est obtenue comme mesure-image de la mesure de Lebesgue 
sur [0,1] par l'application x — (£x)gen:. 

(3) On s'intéresse au déplacement dans l’espace d’une particule ponctuelle soumise à des 
perturbations aléatoires. Si on se limite à l’intervalle de temps [0, 1], l’espace de probabilité 
naturel est C([0, 1], R) : un élément de Q, une trajectoire possible, est une fonction continue 
w : [0,1] — R°. La tribu sur Q est alors la plus petite tribu qui rende mesurables toutes 
les applications coordonnées w —> w(t) pour t € R4. Cette tribu coïncide avec la tribu 
borélienne pour la topologie de la convergence uniforme sur Q. Il resterait à construire la 
probabilité P, pour laquelle de multiples choix sont possibles. L'exemple le plus important, 
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à la fois du point de vue théorique et pour les applications, est la mesure de Wiener, qui est 
la loi du mouvement brownien. 


Remarque importante. Très souvent dans la suite, on ne spécifiera pas le choix de l’espace 
de probabilité. Les données importantes seront les propriétés des fonctions définies sur cet 
espace, les variables aléatoires. 


8.1.2 Variables aléatoires 
Définition 8.1.1 Soit (E,E) un espace mesurable. Une application mesurable X : Q — E 


est appelée variable aléatoire (v.a. en abrégé) à valeurs dans E. 


Exemples. En reprenant les trois exemples ci-dessus : 

(1) X((i, j)) = i + j définit une variable aléatoire à valeurs dans {1,2,...,12}. 

) X(w) = inf{j : wj = 6}, avec la convention inf Ø = co, définit une v.a. à valeurs dans 
= NU {o0}. Pour vérifier la mesurabilité, on observe que, pour tout k > 1, 


XTU{KD = {w E Q: w L 6,00 £ 6,... ,wp_1  6,wr = 6}. 


(2 
N 





(3) Pour t € [0, 1] fixé, X (w) = w(t) est une v.a. à valeurs dans R?. (Remarquons que nous 
n’avons pas construit P dans cet exemple, mais cela n'intervient pas pour les questions de 
mesurabilité.) 


Définition 8.1.2 La loi de la variable aléatoire X est la mesure-image de P par X. C’est 
donc la mesure de probabilité sur (E, E), notée Px, définie par 


Px(B) = P(X7"(B)), VBEE. 
En pratique on écrit plutôt : 
Px(B) = P(X € B) (= P({wue 9: X (w) € B})). 


La loi Px permet de calculer la probabilité des événements qui “dépendent” de la v.a. X. Il 
faut comprendre qu’à chaque w € Q on a associé un “point aléatoire” X (w) dans E, et que 
Px(B) est la probabilité que ce point aléatoire tombe dans B. 





Remarque. Si u est une mesure de probabilité sur R4, ou sur un espace plus général, il 
existe une manière canonique de construire une variable aléatoire dont la loi est u. Il suffit 
de prendre Q = R?, A = B(RÎ), P = u, puis de poser X(w) = w. La loi de X est u, de 
manière évidente. 








Cas particuliers. 


e Variables aléatoires discrètes. C’est le cas où E est dénombrable (et E est l’ensemble 
des parties de Æ). La loi de X est alors 


Px = Y pro 


xeE 
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où Ppr = P(X = x) et 0, désigne la la mesure de Dirac en x. En effet, 


Px(B)= P(X € B)= P(([J{X = 2}) = DC P(X = x) alB]. 


z€B x€B xcE 
En pratique, trouver la loi d’une v.a. discrète, c’est donc calculer toutes les probabilités 
P(X = x) pour z € E. 


Exemple. Revenons à l'exemple (2) ci-dessus, avec X (w) = inf{j : w; = 6}. Alors, pour 
tout k > 1, 


f f Ea 1,5, 
P(X=k)=P( U {issus = ir = 6}) = 510) = EC 
I 1746 
Remarquons que 31%, P(X = k) = 1 et donc P(X = œ) = 1 — P(X € N) = 0. Observons 
que l’ensemble {X = œo} est loin d’être vide puisqu'il contient toutes les suites (11,42, ...) 
qui ne prennent pas la valeur 6. 











e Variables aléatoires à densité. Une variable aléatoire X à valeurs dans (R4, B(R°)) est 
dite à densité si Px est absolument continue par rapport à la mesure de Lebesgue À. 

Dans ce cas, le théorème de Radon-Nikodym montre qu’il existe une fonction borélienne 
p : R? — R+ telle que 








Px(B) = | vle) de 


On a en particulier fpa p(x)dx = P(X € R?) = 1. La fonction p, qui est unique à en ensemble 
de mesure de Lebesgue nulle près, est appelée la densité de (la loi de) X. 
Si d = 1, on a en particulier, pour tous à < 2, 





B 
Pa <X<p)=  p(odr. 


Q 


8.1.3 Espérance mathématique 





Définition 8.1.3 Soit X une variable aléatoire réelle (i.e. à valeurs dans R). On note 
alors 


EIX] = | XW) Pld), 


qui est bien définie dans les deux cas suivants : 

- si X > 0 (alors EÏX] € [0, |), 

- si X est de signe quelconque et E[IX|] = f |X|dP < œ. 
On étend cette définition au cas où X = (X3,..., Xa) est une variable aléatoire à valeurs 
dans R? en prenant alors E[X] = (E[X:|,..., EÏX4l), pourvu bien sûr que chacune des 
espérances EÏX;] soit bien définie. 





Remarque. Si X = 1g, E[X] = P(B). En général, EÏX1 s’interprète comme la moyenne 
de la v.a. X. Dans le cas particulier où Q est fini et P attribue la même valeur à chaque 
singleton, E[X] est bien la moyenne au sens usuel des valeurs prises par X. 
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Proposition 8.1.1 Soit X une variable aléatoire à valeurs dans (E,€). Pour toute fonction 
mesurable f : E — [0,]|, on a 


EX] = L f(a) Px(da). 


Preuve. C’est évidemment une propriété générale des mesures-images déjà rencontrée dans 
le cours d'intégration. On remarque que le résultat est vrai par définition pour f = 1g puis 
par linéarité pour toute fonction étagée positive. Dans le cas général, on utilise le théorème 
de convergence monotone et le fait que toute fonction mesurable positive est limite croissante 
d’une suite de fonctions étagées positives. 0 


Si f est de signe quelconque, la formule de la proposition reste vraie à condition que les 
intégrales soient bien définies, ce qui revient à E[|f(X)|] < oo. 

La donnée de Py permet donc de calculer la valeur moyenne de variables aléatoires de 
la forme f(X). Inversement, on utilise souvent la proposition pour calculer la loi d’une v.a. 
X : si on arrive à écrire 


E(/(X)] = | fdv 


pour toute fonction f “suffisamment” générale, alors on peut identifier v à la loi de X. 
Donnons un exemple simple de ce principe. 





Proposition 8.1.2 Soit X = (X1,..., Xa) une v.a. à valeurs dans R. Supposons que la 
loi de X a une densité p(x1,...,xa). Alors, pour tout j € {1,...,d}, la loi de X; a une 
densité donnée par 


p(z) = | DÉC Ej-1, Dr e td) dTi -e de dise 
Ra-1 
(par exemple, si d = 2, 


TOE f E Î da) 


Preuve. Soit m; la projection m;(x1,...,44) = zj. En utilisant le théorème de Fubini, on 
écrit, pour toute fonction borélienne f : R —R,, 











EIX = EEX] = f fente) der» des 
= ga FC) a Pte..n) dr .…duÿ sd; dua)dr) 


= | f (x;)p;(z;) dz, 











ce qui donne le résultat voulu. 
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Remarque. Si X = (X,,...,X4) est une v.a. à valeurs dans Rf, les lois Px,, qu’on appelle 
souvent les lois marginales de X, sont déterminées par la loi de X, simplement parce que 
Py, = T;(Px), avec la notation ci-dessous. Il est important d'observer que : 


la réciproque est fausse ! 





Pour un exemple, considérons une densité de probabilité q sur R, et observons que la fonction 
p(x1, £2) = q(x1)q(xe) est alors aussi une densité de probabilité sur R?. D’après une remarque 
ci-dessus on peut construire une v.a. X = (X1, X2) à valeurs dans R? dont la loi est la 
mesure de densité p par rapport à la mesure de Lebesgue. Mais alors les deux v.a. X et 
X’ = (X1, Xı) ont mêmes lois marginales (la proposition ci-dessus montre que Px,(dx) = 
Px,(dx) = q(x)dx) alors que les lois Px et Px, sont très différentes, simplement parce que 
Px est portée par la diagonale de R?, qui est de mesure de Lebesgue nulle. 











8.1.4 Exemple : le paradoxe de Bertrand 


Pour illustrer les notions introduites dans les paragraphes précédents, considérons le problème 
suivant. On s'intéresse à la probabilité qu’une corde choisie au hasard sur un cercle ait une 
longueur plus grande que le coté du triangle équilatéral inscrit. Sans perte de généralité on 
peut supposer que le cercle est le cercle unité. Bertrand proposait deux méthodes de calcul : 


(a) On choisit les deux extrémités de la corde au hasard sur le cercle. La première étant 
choisie, la longueur de la corde sera plus grande que le coté du triangle équilatéral inscrit 


si et seulement si la seconde extrémité est dans un secteur angulaire d'ouverture 27/3. 
27/3 _ 1 


2m 3° 





La probabilité est donc 


(b) On choisit le centre de la corde au hasard sur le disque unité. La probabilité désirée 
est la probabilité que le centre tombe dans le disque de rayon 1/2 centré à l’origine. 
Comme l’aire de ce disque est un quart de l’aire du disque unité, on trouve comme 
probabilité E. 


On obtient donc un résultat différent dans les deux cas. L’explication tient dans le fait 
que les deux méthodes correspondent à des expériences aléatoires différentes, représentées 
par des choix différents de l’espace de probabilité. Il n’y a donc aucune raison pour que la 
loi de la variable aléatoire que l’on considère (la longueur de la corde) soit la même dans les 
deux cas. Pour nous en convaincre, explicitons les choix des espaces de probabilité. 


(a) Dans ce cas, 
1 
Q = [0,2r[?, A= B([0,2rP), P(dw)= gat de”, 
où on note w = (0, 0’) pour w € Q. La longueur de la corde est 


X(w) = Jne — 





J|- 
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On calcule facilement la loi de X : 


EO = | AXO) PGA) 


1 27 27 | 0 +: g! ! 
= a] f f(2|sin( 3 )|) dðd8 
£ u 


= = f(2sin(s)) du 


T Jo 





En particulier, la probabilité recherchée est 
2 


P(X > V3) = fe dx = A 


(b) Maintenant, 





Q= {w= (y, z2) ER: y +2 <1}, A=B(Q), P(dw)= 1 la(y, z) dy dz. 
T 


La longueur de la corde est 
X{(w) = 24/1 — y? — 2z? 


et pour calculer sa loi on écrit 
1 
EO] = Èf OVITA lyc dydz 
R 


z 2 | HVT P)rdr 


= TEOR 


Donc Px(dx) = p(x)dx, avec 
plz) = : Lj,2(x) x dx. 
On peut remarquer que la densité obtenue est très différente de celle du cas (a). En parti- 
culier, 
i 1 
P(X > V3) zi px) dx = =. 
5 4 
Exercice. Traiter le cas de la troisième méthode proposée par Bertrand : on choisit au 
hasard la direction du rayon orthogonal à la corde, puis le centre de la corde uniformément 
sur ce rayon. 
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8.1.5 Lois classiques 
On donne dans ce paragraphe quelques exemples importants de lois. 
Lois discrètes. 


(a) Loi uniforme. Si E est un ensemble fini, Card(ÆE) = n, une v.a. X est de loi uniforme 
sur E si 


1 
P(X =xz)=-, VreE. 
n 


(b) Loi de Bernoulli de paramètre p € [0,1]. C’est la loi d’une v.a. X à valeurs dans {0,1} 
telle que 
P(X =1)=p, P(X=0)=1-p. 
On interprète X comme le résultat du lancer d’une pièce truquée qui tombe sur pile 


avec probabilité p. 


(c) Loi binômiale B(n,p) (n € N*, p € [0,1]). C’est la loi d’une v.a. X à valeurs dans 
{1,...,n} telle que 
P(X = k) = C p" (1). 


On interprète X comme le nombre de piles obtenus en n lancers avec la pièce précédente. 


(d) Loi géométrique de paramètre p €]0, 1[. C’est la loi d’une v.a. X à valeurs dans N, telle 
que 
P(X =k) = (1-p)p". 


X est le nombre de piles obtenus avant le premier face. 


(e) Loi de Poisson de paramètre À > 0. X est une v.a. à valeurs dans N, et 


AF 
P(X =k)= ae. , VkeN. 
On calcule facilement E[X] = À. La loi de Poisson est très importante aussi bien 


du point de vue théorique que dans les applications. Intuitivement, elle correspond 
au nombre d'événements rares qui se sont produits durant une période longue. La 
traduction mathématique de cette intuition est l approximation binômiale de la loi de 
Poisson : si pour tout n > 1, Xn suit une loi binômiale B(n, pn) et si np, — À quand 
n — œ, alors pour tout entier k € N, 


lim P(Xn = k) = — e 





Lois continues. Dans les trois exemples qui suivent, X est une v.a. à valeurs dans R, à 
densité p(x). 


(a) Loi uniforme sur {a, b] (a < b). 


(b) Loi exponentielle de paramètre À > 0. 
p(z) = Xe "Ir, (x). 
Les lois exponentielles possèdent la propriété caractéristique suivante : si a,b > 0, 
P(X > a+b) = P(X > a) P(X >b), 


ce qu’on interprète en disant que la probabilité que X — a > b sachant que X > a 
coïncide avec la probabilité que X > b. C’est la propriété d'absence de mémoire de 
la loi exponentielle, qui explique qu’elle soit utilisée par exemple pour modéliser les 
temps de vie de machine sans usure. 





(c) Loi gaussienne, ou normale, N'(m, o°) (m € R, o > 0). 


ÉD) 


(a) = = exp ( 
= ———€@tXx — 
Fe Fe 20? 


Avec la loi de Poisson, c’est la loi la plus importante en théorie des probabilités. Sa 
densité est la fameuse courbe en cloche. Les paramètres m et o s’interprètent comme 


m= E|X], œ= E|(X - m)’. 


On remarque aussi que X — m suit la loi W(0,0*). La loi gaussienne jouera un rôle 
important dans le Chapitre 10. 


Par convention on dira qu’une v.a. constante égale à m suit la loi gaussienne N (m, 0). 
Si X suit la loi W(m, o°), pour tous À, u € R, AX + u suit la loi N (Am + u, A?o°). 





8.1.6 Fonction de répartition d’une variable aléatoire réelle 





Si X est une v.a. réelle, la fonction de répartition de X est la fonction Fy : R — [0,1] 
définie par 





Fx(t) = P(X < t) = Px(]-00,t]), VteR. 


La fonction Fx est croissante, continue à droite et a pour limite 0 en —æ et 1 en +00. 
Inversement, si on se donne une fonction F ayant ces propriétés, on a vu dans le cours 
d'intégration qu'il existe une (unique) mesure de probabilité u telle que u(] — co, t]) = F(t) 
pour tout t € R. Cela montre qu’on peut interpréter F comme la fonction de répartition 
d’une v.a. réelle. 
Il découle des résultats du cours d’intégration que Fx caractérise la loi Px de X. On a 
en particulier 





P(a < X <b) = Fx(b) — Fx(a-) si a < b, 
P(a < X <b) = Fx(b-) — Fy (a) si a < b, 


et les sauts de Fy correspondent aux atomes de Py. 
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8.1.7 Tribu engendrée par une variable aléatoire 


Soit X une v.a. à valeurs dans un espace mesurable quelconque (E, E). La tribu engendrée 
par X, notée o(X), est par définition la plus petite tribu sur Q qui rende X mesurable : 


o(X)={A=X-U(B):BeË}. 


Remarque. On peut généraliser cette définition à une famille quelconque (X;);er de v.a., 
X; étant à valeurs dans (F;,€;). Dans ce cas, 


o(X) =o(X7'(B;) : Bi € E&i €T). 


(3 


Proposition 8.1.3 Soit X une variable aléatoire à valeurs dans (E, €E), et soit Y une v.a. 
réelle. Il y a équivalence entre : 


(i) Y est o(X)-mesurable. 








(ii) Il existe une fonction mesurable f de (E,€) dans (R, B(R)) telle que Y = f(X). 





Preuve. L’implication (ii)=(i) est facile puisqu’une composée de fonctions mesurables est 
mesurable. 


Dans l’autre sens, supposons que Y est o(X )-mesurable. Traitons d’abord le cas où Y 


est étagée : 
Yeay Ali 
i=1 


où A; E€ R et À; € o(X), pour tout i € {1,...,n}. Alors, pour chaque i € {1,...,n}, on 
peut trouver B; € E tel que À; = XT! (B;), et on a 





E T 
i=1 i=1 


où f =); À; 18, est €-mesurable. 

Dans le cas général, on sait que Y est limite simple d’une suite de v.a. Y, étagées et 
o(X)-mesurables. D’après la première étape, on peut écrire, pour tout n, Yp = f,(X), où la 
fonction fan : E —> R est mesurable. On pose alors pour tout x € E : 





lim f,(x) sila limite existe, 
f(e) = À ne | 
0 sinon. 


On sait que la fonction f ainsi définie est mesurable. Par ailleurs, pour tout w € Q, 
X{(w) appartient à l’ensemble des x pour lesquels lim f,(x) existe (puisque lim f,(X(w)) = 
lim Y (w) = Y(w)), et de plus 


F(X (w)) = lim f,(X(w)) = Yw) 





ce qui donne la représentation recherchée Y = f(X). oO 
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8.2 Moments de variables aléatoires 


8.2.1 Moments d’ordre p et variance 


Soit X une v.a. réelle et soit p > 1 un entier. Le moment d'ordre p de X est par définition 
la quantité E[X?], qui n’est définie que si E[]X}?] < oo, ou si X > 0. La quantité E[|X[?] 
est appelée moment absolu d’ordre p. En particulier le moment d’ordre 1 est simplement 
l'espérance de X. On dit que la v.a. réelle X est centrée si elle est intégrable et si E[X] = 0. 


L’espérance mathématique est un cas particulier d’intégrale par rapport à une mesure 
positive, et on peut donc lui appliquer les théorèmes généraux vus dans ce cadre. En parti- 
culier, les théorèmes de convergence sont d’un usage fréquent : 


Convergence monotone : Xn > 0, Xn? X > E[X,] T ELX]. 
Lemme de Fatou : Xn >0, = Elliminf Xn] < lim inf E[X,|]. 
Convergence dominée : |X,| < Z E[Z] < oo, Xn — X pp. = E[X,] — EÏX]. 


En théorie des probabilités on utilise l'expression presque sûrement (p.s. en abrégé) plutôt 
que le presque partout (p.p.) de la théorie de la mesure. 


Les espaces LP(Q, À, P) sont définis pour tout p € [1, oo] comme dans le cours d’intégration. 
L’inégalité de Hölder s’écrit 


E[XY] SEIA PEAR 
pourvu que + + + = 1. En prenant Y = 1 on trouve || X|1 < ||Xllp, ce qui se généralise 
aussitôt à |X ||, < ||X]|p si r < p. En particulier L” (Q, A, P) C L'(Q, A, P) sir < p. 
L’inégalité de Cauchy-Schwarz s'écrit 


E[XY|] SERTA ETY 


et le cas particulier où Y = 1 
EIX|f < E[X°] 


est très souvent utile. 
Définition 8.2.1 Soit X € L?(Q,A,P). La variance de X est 
var(X) = E[(X — E[X|)] 


et l’écart-type de X est 


ox = y var(X). 


De manière informelle, var( X) mesure la dispersion de X autour de sa moyenne E[X|. 
Remarquons que var( X) = 0 si et seulement si X est constante p.s. 
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Proposition 8.2.1 On a aussi var(X) = E[X?] — (E[X])?, et pour tout a ER, 
E[(X — a)°] = var(X) + (E[X] — a)°. 
En conséquence, 
var(X) = inf E[(X — a)’. 
a€cR 
Preuve. On a 


EI(X —a)”] = E[X?] — 2aE[X] + a = E[X°] - (E[X|) + (E[X] — a}. 


Les deux premières assertions en découlent aussitôt, en prenant a = E[X] pour la première. 














Inégalité de Markov. (cf cours d'intégration) Si X > 0 et a > 0, 


+= 


P(X > a) < = [X]. 
Inégalité de Bienaymé-Tchebicheff. Si X € L?(Q, A, P) et a > 0, 
P(X — EX > a) < 5 var(X). 
Cette inégalité découle de l'inégalité de Markov appliquée à la variable positive (X — E[X]}?. 


Définition 8.2.2 Soient X,Y € L?(Q, A, P). La covariance de X et Y est 


cov(X, Y) = E|(X - E[X](Y - E[Y])] = E[X(Y — EfY])] = E[XY] - E[X]E[Y]. 





Si X = (X1, ..., Xa) est une variable aléatoire à valeurs dans R? dont toutes les composantes 
sont dans L?(Q, A, P) (ce qui équivaut à E[|X|?] < œ), la matrice de covariance de X est 


Kx = (cov(X;, x;)) 


SEE 


De manière informelle, la covariance de X et Y mesure la corrélation existant entre X 
et Y. Remarquons que cov(X, X) = var(X) et que, d’après l'inégalité de Cauchy-Schwarz, 


[cov(X, Y)| < /var(X) y var(Y). 


L'application (X, Y) — cov(X, Y) est une forme bilinéaire sur L?(Q, A, P). 





Dans le cas vectoriel X = (X3,..., Xa), la matrice Ky est symétrique positive : pour 
tous À1,..., Au € R°, 
d d 
`y Aià; Kx(i, j) = var( X MX) >0. 
ij=1 i=1 


Exercice. Si A est une matrice (déterministe) nx d et Y = AX, vérifier que Ky = AKx'A. 
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8.2.2 La régression linéaire 


Soient X,Y1,...,Y, des variables aléatoires dans L?(Q, A, P). On cherche à trouver la 
meilleure approximation de X comme fonction affine de Y1,...,Y,. Précisément, on cherche 
à minimiser 

EL(X — (Bo + BY +++: + BnYn))] 
sur tous les choix possibles du (n + 1)-uplet de réels (Go,..., Bn). 





Proposition 8.2.2 On a 
inf EX — (bo + Ai +--+ + BaYn))?] = EUX - 2), 





où 


les coefficients a; étant (nimporte quelle) solution du système 
j 


Xo; cov(Y;, Yk) = cov( X, Y), 1<k<n. 
j=1 


1 


En particulier, si Ky est non-dégénérée, on a a = cov( X,Y) Ky en notation matricielle. 


Preuve. Soit H le sous-espace vectoriel de L?(Q, A, P) engendré par 1,Y1,...,Y,. Alors, 
on sait que la variable aléatoire Z qui minimise | X — U||2 pour U € H est la projection 
orthogonale de X sur H. On peut écrire Z sous la forme 


Z = œ + 9 a;(Y; — EfY;]). 
j=1 
Par définition de la projection orthogonale, X — Z est orthogonal à H. On doit donc avoir 
E(X- Z)-1]=9, 
d’où ap = E[X]. De même, pour tout k € {1,... n}, 
E(X — Z) - (Yk — El) = 0, 


ce qui équivaut à cov(Z, Yp) = cov(X, Yp), ou encore à 
De cov(Y;, Yp) = cov(X, Yp). 


Inversement, si les N a; vérifient ce système d'équations, il est immédiat que la 

variable Z définie par le membre de droite de (1) est un élément de H tel que X — Z soit 

orthogonal à H, donc doit coïncider avec la projection orthogonale de X sur H. 0 

Remarque. Si n = 1 et si on suppose que Y n’est pas constante p.s., on trouve que la 

meilleure (au sens L?) approximation de X par une fonction affine de Y est 

cov( X,Y) 
var(Y) 


C’est ce qu’on appelle parfois la droite de régression de X en Y. 


Z = E|X] + (Y — E[Y]). 
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8.2.3 Fonctions caractéristiques 





Définition 8.2.3 Si X est une variable aléatoire à valeurs dans R?, la fonction caractéristique 
de X est la fonction y : R? — C définie par 





Dx(é) = Elexpli£-X)], ER 


On peut aussi écrire 
Bx(e) = | e= Px(an) 


ce qui permet de voir ®x comme la transformée de Fourier de la loi de X. On écrit parfois 
Px(£) = Px(£). Le théorème de convergence dominée montre que xy est continue (et 
bornée) sur R‘. 

Notre objectif est de montrer que la fonction caractéristique caractérise la loi de X. Nous 
commençons par un calcul important dans un cas particulier. 





Lemme 8.2.3 Soit X une variable aléatoire de loi gaussienne N (0, o°). Alors, 


oE? 








Px(£) = exp(— Jis EER. 


Preuve. On a 





1 : 
Œx(É) = f e RN E 
R 


OV 2T 


On se ramène facilement au cas ø = 1. Ensuite, un argument de parité montre que la partie 
imaginaire de ®y(£) est nulle. Il reste à calculer 


FE = i = e™®/? cos(£x) dx. 


En dérivant sous le signe intégrale, on a 





FE di sin(£x) dx 


(la justification est facile puisque |x sin(£r)e-*"/2| < |xle-*”/2 qui est intégrable). En 
intégrant par parties, il vient 





Pb f m~ eeN, 


La fonction f est donc solution de l'équation différentielle f'(£) = —Ef (£), avec condition 
initiale f(0) = 1. Il en découle que f(£) = exp(—£?/2). 

















Théorème 8.2.4 La fonction caractéristique d’une variable aléatoire X à valeurs dans R? 
caractérise la loi de cette variable aléatoire. Autrement dit, la transformée de Fourier définie 
sur l’espace des mesures de probabilité sur R? est injective. 
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Preuve. On traite d’abord le cas d = 1. Pour tout øo > 0, soit gẹ la densité de la loi 
gaussienne W(0, o°) : 

2 
| 20? 


Si u est une mesure de probabilité sur R, on pose 





Jet) = xp( Ji; x ER. 


—— e 
OV 2T 





(def 


) 
P) = f gole = y) ndn) E ge + ua) 
R 
Holdx) = f(x) dx. 
Pour montrer le résultat du théorème, il suffit d'établir que 


1. uo est déterminée par f. 





2. Pour toute fonction y € CHR), f v(x)u(dx) — f p(x)u(dx) quand o — 0. 





Pour établir le point 1, on utilise le lemme pour écrire, pour tout x € R, 


x? 


VE gole) = epia) = f e gyolO d 


Il vient alors 


fela) = | gole- aldy) = (VIT | ( f e gyel) d£)uldy) 


|l 
PTT 
Q 
ŞI 
3 
D id 
L 
z 
m 
x 
8 
Ka; 
= 
er 
Q 
DE De 
l'An: 
nr 
POS 
SY 
A 
e 
p= 
ITS 
a 
e 
a i 
Nr 
D 
Ant 


(OV) | e€? gija (E) A(-É)LE. 


Dans l'avant-dernière égalité, on a utilisé le théorème de Fubini-Lebesgue, dont la justifica- 
tion est facile puisque y est une mesure de probabilité et que la fonction g1/o est intégrable 
pour la mesure de Lebesgue. 

Pour le point 2, on écrit d’abord, pour toute fonction y continue et bornée sur R, 


f oela) = Jo f ot- out )ar = J 8 + pina), 


avec la même justification pour appliquer le théorème de Fubini-Lebesgue. Ensuite, on utilise 
les propriétés 





lim Gt) dE = 0, Ve > 0, 
70 J{lxl>e} 





pour obtenir que, pour tout y € R 


(cf les résultats du cours d'intégration concernant les approximations de la mesure de Dirac 
ôo). Par convergence dominée, facile à justifier puisque [g, * p| < sup [v|, on obtient 


o—0 


im | Goe(d) = | (tan), 
ce qui termine la preuve dans le cas d = 1. 
La preuve dans le cas d quelconque est similaire. On utilise les fonctions 


(Eise ta) = o) 


g® 





en remarquant que pour £ € R°, 


d 
[alta etre = TI f aoler) 879 dr, = r0) POO 
Rd j=1 

















Proposition 8.2.5 Soit X = (Xı,..., Xa) une v.a. à valeurs dans R? et de carré intégrable. 
Alors xy est de classe C? et 


d 1 d d 
E) =1+i D SEX) - 5) > GE ElX;Xx] + ollé’) 
j=1 j=1 k=1 


quand £ = (£1,..., £a) tend vers 0. 


Preuve. En dérivant sous le signe intégrale, on trouve 





0® x l 
= i E[X;eif *, 
la justification étant facile puisque [iX;e*| = |X;| et X; € L? C L!. De même, puisque 


EIIX;X4|] < E[X}] E[X}]? < 00, on peut dériver une seconde fois et trouver que 


9x 


ana , i&X 


De plus le théorème de continuité sous le signe intégrale assure que PEE) est fonction 
continue de £. 

Enfin la dernière assertion est simplement le développement de Taylor de ®y à l’ordre 2 
à l’origine. 0 
Remarque. Si on suppose que X est de puissance p-ième intégrable (p > 1 entier) le même 
raisonnement montre que ® x est de classe C?. C’est cependant le cas p = 2 qui sera le plus 
utile dans la suite. 
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8.2.4 Fonction génératrice 


Dans le cas de variables aléatoires à valeurs dans N, on utilise les fonctions génératrices 
plutôt que les fonctions caractéristiques. 


Définition 8.2.4 Soit X une v.a. à valeurs dans N. La fonction génératrice de X est la 
fonction gx définie sur l'intervalle [0, 1] par 


gx(r) = Elr*] = SOP SAT: 


La fonction gx est continue sur [0,1] (cela découle par exemple du théorème de conver- 
gence dominée), et on a gx(0) = P(X = 0) et gx(1) = 1. Le rayon de convergence de la série 
entière qui apparaît dans la définition est donc supérieur ou égal à un. Cela montre que la 
fonction génératrice gx caractérise la loi de X, puisque les nombres P(X = n) apparaissent 
comme les coefficients du développement de Taylor de gx en 0. 


On voit facilement que gx a toujours une dérivée à gauche en 1, éventuellement infinie, 
et que 
gx(1) = E[X]. 


Plus généralement, pour tout entier p > 1, 


img% (r) = EIX(X - 1) (X -p +1) 


ce qui montre comment retrouver tous les moments de X à partir de la connaissance de la 
fonction génératrice. 
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Chapitre 9 


Indépendance 


Le concept d'indépendance est sans doute la première notion importante où la théorie 
des probabilités se différencie nettement de l’intégration. S'il est plus facile de compren- 
dre intuitivement la définition de l’indépendance de deux événements ou de deux variables 
aléatoires, la notion la plus fondamentale est celle de l’indépendance de deux (ou plusieurs) 
sous-tribus. Un résultat-clé de ce chapitre relie l'indépendance de deux variables aléatoires au 
fait que la loi du couple formé par ces deux variables est la mesure-produit des lois individu- 
elles. Avec le théorème de Fubini, cela permet des reformulations souvent utiles de la notion 
d'indépendance. A titre d'application, on établit le célèbre lemme de Borel-Cantelli (dont 
une application amusante donne des propriétés surprenantes du développement dyadique 
d’un nombre réel choisi au hasard) et une première forme de la loi des grands nombres, qui 
suffit à établir le lien entre notre approche axiomatique des probabilités et la définition “his- 
torique” (probabilité d’un événement = fréquence d’apparition de cet événement lorsqu'on 
répète un grand nombre de fois la même expérience aléatoire). 


9.1 Evénements indépendants 


Dans tout ce chapitre on se place sur un espace de probabilité (Q, A, P). Si A, B € A sont 
deux événements, on dit que À et B sont indépendants si 


P(ANB) = P(A)P(B). 


Au moins lorsque P(B) > 0, on peut interprèter cette définition en disant que la probabilité 


conditionnelle P(AN B) 

(def) N 

P(A| B) = ——— 
(AN) P(B) 


coïncide avec P(A) : le fait de savoir que B est réalisé ne donne pas d’information sur la 
réalisation ou non de l'événement A (et on peut intervertir les rôles de À et B). 
Exemples. (i) Lancer de deux dés : Q = {1,2,...,6}?, P({w}) = 1/36 pour tout w € Q. 
Les événements À = {6} x {1,2,...,6} et B = {1,2,...,6} x {6} sont indépendants. En 
fait la probabilité P a été construite précisément pour qu’un événement relatif au résultat 
du premier lancer soit indépendant d’un événement relatif au résultat du second. 
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(ii) Lancer d’un seul dé: Q = {1,2,...,6}, P({w}) = 1/6 pour tout w € Q. Les événements 
A = {1,2} et B = {1,3,5} sont indépendants. 


Définition 9.1.1 On dit que n événements Aı,..., An sont indépendants si, pour tout sous- 
ensemble non vide {j1,..., jp} de {1,...,n}, on a 


P(A; N A N... N Ap) = PA PASS. SPAS 
Remarques. Il ne suffit pas que l’on ait 
P(A NAN... NA An) = P(A) P(4)...P(4,). 
Il ne suffit pas non plus que, pour chaque paire {i,j} C {1,..., n}, les événements A; et À; 
soient indépendants. Pour donner un exemple, considérons l’espace correspondant à deux 


lancers de pile ou face (pièce non truquée) et prenons 


A = {pile au premier lancer} 
B = {pile au second lancer} 


C = {même résultat aux deux lancers}. 

Les événements À, B,C sont indépendants deux à deux mais non indépendants. 
Proposition 9.1.1 Les n événements Aı,..., An sont indépendants si et seulement si on a 
P(B N... NA Ba) = PB): P(Bn) 

dès que B; € o(A;) = {Ø, Ai, AS, Q} pour tout i € {1,...,n}. 


Preuve. Il est clair que la condition donnée est plus forte que celle de la définition : prendre 


B; = A; si i € {j1,..., Jp} et Bi = Q sinon. Inversement, supposons que A1,..., A, sont 
indépendants. Pour vérifier la propriété de la proposition, on peut supposer B;  S pour 
tout i € {1,...,n}. Ensuite, si {j1,..., Jp} = {i : Bi # Q}, on est ramené à montrer que 


P(B} O BN... N Bp) = P(B) P(Bi).--- P(Bip), 


dès que B;, = Aj ou À°. Finalement, il suffit de montrer que si C1, C2, ...,Cp sont 
indépendants, CÎ, C2,...,Cp le sont aussi. Mais cela est facile puisque, pour tout sous- 
ensemble {i1,..., ig} de {2,...,p}, 


RGN Cnam) = Panien = PONC ne nie) 
= P(C ePOS POPC ARO 
P(CÌ)P(Ca) P(C) 
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9.2 Variables aléatoires et tribus indépendantes 
La notion la plus générale est celle de tribus indépendantes. 


Définition 9.2.1 Soient B;,...,B, n sous-tribus de A. On dit que B:,...,B, sont indépen- 
dantes si et seulement si 


Soient Xi, ..., Xn n variables aléatoires à valeurs respectivement dans (E1,€1),...,(En, En). 
On dit que les variables X4, ..., Xn sont indépendantes si les tribus o(X1),...,0o(X,) le sont. 
Cela équivaut encore à dire que 


VF E E,...,Vin E En, PUXE FH}Nn...N{Xn E Fil) = P(X EF)... P(X, € Fn) 


(9.1) 
(en effet on sait que o(X;) = {X7 (F) : F € Ë;}). 

De manière intuitive, les v.a. X1,..., Xn sont indépendantes si la connaissance de cer- 
taines d’entre elles ne donne pas d’information sur les autres. 

Remarques. (i) Si B:1,...,B, sont n sous-tribus indépendantes, et si, pour tout i € 
{1,... n}, X; est une v.a. B;-mesurable, alors X1,..., Xn sont indépendantes. 

(ii) Les n événements A1,..., An sont indépendants si et seulement si les tribus o (41), ..., 
o(A,) le sont (cf proposition précédente). 

Si X1,...,X, sont des variables aléatoires à valeurs dans (E4, E1), .-., (En, En) respec- 
tivement, le n-uplet (X4, ..., Xn) est une v.a. à valeurs dans l’espace Æ x --- x E,, muni de 
la tribu produit € Q --- Q En- 

Théorème 9.2.1 Les n variables aléatoires Xı,..., Xn sont indépendantes si et seulement 


si la loi du n-uplet (X1, ..., Xn) est le produit des lois de X1,...,X, : 


Xn) = Px, 8 0 8 Px,. 


3e. 


De plus, on a alors : : 
EI TL AG) = [JE] 
i=1 i=1 
dès que f; est une fonction mesurable positive sur (E;, €;), pour tout i € {1,...,n}. 
Preuve. Soit F; € &;, pour tout i € {1,...,n}. On a d’une part 
Ne PUR x Fn) = PUXE FYNO... TASER 


et d’autre part 


Px, 9-0 8 Px, (Fi x o x Fa) = [| Pk (F) = [[ P: € F). 
i=1 


i=1 
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En comparant avec (9.1), on voit que X4,..., Xn sont indépendantes si et seulement si les 
deux mesures de probabilité Pixi. x) et Px, @ :::@ Px, prennent les mêmes valeurs sur 
les pavés F1 x --- x Fa. Mais comme on sait (lemme de classe monotone) qu’une mesure de 
probabilité sur un espace-produit est caractérisée par ses valeurs sur les pavés, cela équivaut 
encore à dire que Pixi, Xn) = Px @::-@ Pyn- 

La deuxième assertion est ensuite une conséquence du théorème de Fubini-Tonnelli : 


[Il AX] = Î Il fixe) Px, (dr) … Px, (d£n) 


1X XEn į=1 
[I | AE) Pre) 
i=1 Y Pi 


[EU]. 














Le théorème ci-dessus montre aussi comment construire des v.a. indépendantes. Con- 
sidérons le cas de v.a. réelles, et soient u1, .-., Un des mesures de probabilité sur R”. Alors, 
comme on l’a observé dans le Chapitre 8, on peut construire une v.a. Y = (Y:,...,Y,) à 
valeurs dans R” dont la loi est u18- -8 un. D’après le théorème précédent, les composantes 
Yı,... Yn de Y sont des v.a. réelles indépendantes de lois respectives u1,..., HUn- 





Remarques. Si les fonctions f; sont de signe quelconque, l'égalité 


n 


r|] ax] = | [ EIX] 


i=1 
reste vraie à condition que E||f:(X;)|] < œ pour tout i € {1,...,n}, et on a alors aussi 


n 


E[TL AGO] = [LEII <% 


i=1 


ce qui justifie l’existence du terme de gauche dans la formule précédente. 
En particulier, si X1,...,X, sont n v.a. réelles indépendantes et dans Ll, on a aussi 
Xie Xn € Li, et 


Remarquons qu’en général le produit de v.a. dans L! n’est pas dans L! (l’indépendance est 
une propriété très particulière). 


Corollaire 9.2.2 Si X,,X: sont deux variables aléatoires réelles indépendantes et dans L?, 
on a COV(X1, X2) = 0. 


Cela découle de ce qui précède puisque cov(X1, X2) = E[X1X 2] — E[X;]E[X]. 
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La réciproque du corollaire est fausse. La propriété de covariance nulle (pour deux v.a. 
dans L?) est beaucoup plus faible que l'indépendance. Pour donner un exemple, partons 
d’une v.a. réelle X, dont la loi a une densité notée p(x) symétrique (p(x) = p(—x)) et telle 
que f x*p(x)dx < œœ (de sorte que X, € L?). On peut par exemple choisir pour X; une v.a. 
de loi W(0,0°). Soit ensuite £ une deuxième v.a. à valeurs dans {—1, 1}, indépendante de 
X; et telle que P(e = 1) = P(e = —1) = 4. Alors, si X2 = €X}, on voit immédiatement 
que cov(X:, X2) = 0 alors que X, et Xə ne sont pas indépendantes. En effet, si X4 et Xə 
l’étaient, [X,| serait indépendante de |X2}] = |X|. Or si une v.a. réelle est indépendante 
d'elle-même, elle doit être constante p.s. (exercice !) et donc sa loi est une mesure de Dirac. 
C’est une contradiction puisque la loi de [X;| a une densité donnée par 2p(x)lr, (x). 








Corollaire 9.2.3 Soient X1,...,X, n variables aléatoires réelles. 
(i) Supposons d’abord que, pour tout i € {1,...,n}, la loi de X; a une densité notée p;, et 
que les variables aléatoires X1,...,X, sont indépendantes. Alors, la loi de (X1,...,X,) a 


une densité donnée par 
p(z, Sa iEn) = ILz:@). 
i=1 


(ü) Inversement, supposons que la loi de (X:,...,X,) a une densité de la forme 


p(x1, sini , En) = [Lac 
i=1 





où les fonctions q; sont boréliennes positives sur R. Alors les variables aléatoires X:,...,X, 
sont indépendantes et pour chaque i € {1,...,n}, la loi de X; a une densité p; qui s'écrit 
pi = Ciqi, où Ci > 0 est une constante. 


Preuve. La première partie est une conséquence immédiate du théorème ci-dessus, puisque 
si Px,(dx;) = pi(xi)dx;, le théorème de Fubini-Tonnelli montre que 


Px, ®---@ Px,(dx1...dx») = (Tir) )de be 
i=1 


Pour la partie (ii), on remarque d’abord que, toujours à l’aide du théorème de Fubini- 


Tonnelli, on a 
JI ( J alean) = R Ps En)dz1 . . -dEn = 1, 
Rr” 


i=1 
et en particulier K; := f qi(x)dx) €]0, oo| pour tout i € {1,...,n}. Ensuite, d’après un 
résultat du Chapitre 8, la densité de X; est 
1 
pili) = p(z, arug , Zn )dz1 Pai dt;_1d%;11 its , dEn = (II K;)a(æi) = pel). 
Rn-1 ji i 


Cela permet de réécrire la densité de (X4,..., Xn) sous la forme 
Plta En) = [ee a [2e 
i=1 i=1 
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et on voit que Pixi. Xn) = Px, @ ::: @ Px, d’où l’indépendance. 0O 


Exemple. Soit U une variable de loi exponentielle de paramètre 1 et soit V une variable 
uniforme sur l'intervalle [0,1]. On suppose que U et V sont indépendantes. Alors, si on 
définit 

= VU cos(21V), Y = VU sin(2rV), 


les deux variables aléatoires X et Y sont indépendantes. Pour le voir calculons la loi du 
couple (X,Y). Pour toute fonction y mesurable positive sur R?, 





Ele(X,Y)| = f fo T A T a 


[e (r cos 0, r sin 0) re™ drd0 
p(z, y) e 


De dxdy. 


. 
n 


On obtient que la loi du couple (X,Y) a pour densité m~t exp(—x? — y?) qui a une forme 
produit comme dans la partie (ii) de la proposition. Donc X et Y sont indépendantes (on 
voit aussi que X et Y ont la même densité 


1 2 
p(x) = T ) 


et donc X et Y suivent chacune la loi M (0, 1/2)). 


Remarque. Si X1,...,X, sont n variables aléatoires réelles, il y a équivalence entre : 


(i) X1,...,X, sont indépendantes. 





(ï) Pour tous as ER, P(X1 < @1,..., Xn < an) = ILES P(X: < a). 








(ii) Si f1,..., fn sont continues à support compact de R dans R4, 
E J A| = [J EX). 
i=1 i=1 


(iv) La fonction caractéristique de X est 


Care) [oxi (&) 


(pour montrer (iv)=(i), utiliser l’injectivité de la transformée de Fourier, cf Chapitre 8). 


Nous passons maintenant à un résultat technique très utile. 
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Proposition 9.2.4 Soient B;,...,B, des sous-tribus de A. Pour tout i € {1,...,n}, soit 
C; C B; une classe stable par intersections finies, contenant Q et telle que o(C;) = Bi. 
Supposons que 


VC: € Gi,...,VCn € Cr, PCT es N Cn) = P(C1) P(C2)... P(Ch). 
Alors, les tribus B1,...,B, sont indépendantes. 
Preuve. Fixons d’abord Ch € C2,...,Cn € Cn, et posons 
M = {Bı E€ Bı: P(BLAC2N... N Cn) = P(B:) P(C:)... P(Cn)}. 


Alors Cı C M; par hypothèse, et d’autre part on voit facilement que M; est une classe 
monotone. Le lemme de classe monotone entraîne que M contient o(C1) = B1, et on a 
montré 


Pour continuer, on fixe Bi € B1, C3 € C3,...,Cn E Cn et on pose 
Mi = {B € Bə : P(B1N B2 N CN... Cu) = P(B1) P(B2) P(C3)... P(Ch)}. 


A nouveau, M est une classe monotone qui contient C2 et donc aussi o(C2) = B2. En 
raisonnant par récurrence, on arrive facilement au résultat voulu. 0 


Conséquence. Regroupement par paquets. Soient B;,,...,B, des tribus indépendantes, 
et soient no = 0 < nı < -+ < np =n. Alors les tribus 


not) 


PEE E A E A) 
R. PE E 


D = Bay VV En 


sont indépendantes. Pour le voir, il suffit d'appliquer la proposition ci-dessus en prenant 
pour C; la classe des parties de la forme 


Bn;_1H1 less] Br; 


où B; € B; pour tout i € {n;_1+1,...,n;}. 
En particulier, si X,,..., Xn sont indépendantes, les v.a. 


Yı — eus Mises Yp — Cas -9 Xnp) 


sont indépendantes. 


Exemple. Si Xı,..., X4 sont des v.a. réelles indépendantes, les v.a. 


Zı = XıX3, Zə = X + X4 


115 


sont indépendantes. 


Indépendance d’une famille infinie. Soit (B;);e7 une famille quelconque de sous-tribus 
de À. On dit que cette famille est indépendante si pour tout sous-ensemble fini {i1,.. . , ip} 
de J, les tribus B;,,...,B;, sont indépendantes. 

Si (X;)ser est une famille quelconque de variables aléatoires, cette famille est dite indépen- 
dante si la famille de tribus (o(X;) )ier l’est. 


Proposition 9.2.5 Soit (Xn)nen une suite de variables aléatoires indépendantes. Alors, 
pour tout entier p € N, les deux tribus 


Bı = o (Xo, ..., Xp) ; Bə = o (Xp+1, Xp+2; us) 
sont indépendantes. 


Preuve. Il suffit d'appliquer la proposition précédente en prenant 


Cı = 0o(Xo,..., Xp) = Bı 


OO 


G= (J o(Xpn, Xp, ..., X4) € Bo 


k=p+1 


et en remarquant que l’hypothèse est satisfaite grâce au principe du regroupement par pa- 
quets. 














9.3 Le lemme de Borel-Cantelli 


Si (An)nen est une suite d'événements on note 


lim sup An = M ( Ù Ar) 


n=0 k=n 


et 


née Ù ( M 4) 


n=0 k=n 
Lemme 9.3.1 Soit (A,)nen une suite d'événements. 


(DST en P(An) < œ, alors 
P(lim sup An) = 0 


ou de manière équivalente, 


p.s. {n EN: w E An} est fini. 
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(ïi) Si D yen (An) =œ et si les événements À, sont indépendants, alors 
P(lim sup An) = 1 
ou de manière équivalente, 


p.s. {nE N: w E€ An} est infini. 


Remarque. L'hypothèse d'indépendance (ou une autre hypothèse convenable) est nécessaire 
dans (ii), comme le montre l’exemple trivial où À, = À pour tout n € N, avec 0 < P(A) < 1. 


Preuve. (i) Si $Z en P(An) < œ, alors 
514 = ÑD P(A) < 00 
neN neN 


et donc nen lAn < 00 Ps. 
(ii) Fixons d’abord no € N, et observons que si n > no, 


P( N Aÿ) = IT ray = Ia - Pa). 


La divergence de la série $` P(A;) entraîne alors que 


Comme cela est vrai pour tout no € N, on a aussi 


OO 


e( U (A4) =0 


no=0  k=no 
et, en passant au complémentaire, 


PÀ (Ü 4))-1 


no=0 k=no 





ce qui est le résultat voulu. 0 


Deux applications. (1) Il n'existe pas de mesure de probabilité sur N telle que la probabilité 
de l’ensemble des multiples de n soit égale à 1/n pour tout entier n > 1. En effet, supposons 
qu'il existe une telle probabilité, notée P. Soit P l’ensemble des nombres premiers et pour 
tout p € P, notons Ap = pN l’ensemble des multiples de p. Alors, il est facile de voir que les 
Ap, p € P, sont indépendants. En effet, si p1,...,p4 sont des nombres premiers distincts, 


1 


Pi- Pk 5 





P(Ap N... N Ap) = P(MNNA... N pN) = P((p1... pk)N) = P(Ap;)- 
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Par ailleurs, on sait que 


D P(4,) = D == o. 


pEP pEP P 


On peut donc appliquer la partie (ii) du lemme de Borel-Cantelli pour obtenir que presque 
tout (au sens de la probabilité P) entier n appartient à une infinité d’ensembles Ap, et donc 
est multiple d’une infinité de nombres premiers distincts. C’est évidemment absurde. 


(2) Considérons le cas où 


(Q, A, P) = ([0, 1[, B([0, 1[), À). 


Pour tout n > 1, on pose 
Yw € [01l Xalw) = [2"w] — 22t], 


où [x] désigne la partie entière d’un nombre réel x. Alors Xn (w) € {0,1} et on vérifie 
aisément par récurrence sur n que, pour tout w € [0, 1[, 


O<w—S Xuka, 
k=1 


ce qui montre que 
w= X X(W) 2. 
k=1 


Les nombres X£(w) sont donc les coefficients du développement dyadique (propre) de w. En 
explicitant l’ensemble {X,, = 1} on montre facilement que pour tout n > 1, 


Enfin, on observe que la suite (Xn )n>1 est indépendante. En effet, il suffit ici de vérifier que, 
pour tous 41,...,4 € {0,1}, on a 


li F 
P(X = in. Xp =i) = IP =i) 
j=1 
Or, on voit immédiatement que 
Sime nD A 223227 
j=1 j=1 

d’où le résultat voulu. 

Soit p > 1 un entier quelconque, et soient 41,...,t, € {0,1}. Alors, le lemme de Borel- 
Cantelli permet de voir que 

p.s. Card{k > 0 : Nos MR = ip} = O0. (9.2) 
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Cela montre qu’une suite finie donnée de 0 et de 1 apparaît une infinité de fois dans 
le développement dyadique de presque tout (au sens de la mesure de Lebesgue) réel de 
l'intervalle [0, 1|. Pour établir (9.2), il suffit de poser, pour tout entier n € N, 


Ya = (Xnp+1, Xnp+2; , Xnp+p). 


Le principe du regroupement par paquets montre que la suite (Yn)nen est indépendante, et 
le résultat recherché découle d’une application du lemme de Borel-Cantelli à la suite des 
événements 


A Ya = etp) 


qui sont indépendants et tous de probabilité 27”. 
Puisqu’une réunion dénombrable d'ensembles de probabilité nulle est encore de proba- 
bilité nulle, on peut renforcer (9.2) sous la forme 


p.s. Vp>1, Vi... € {0,1}, Card{k > 0 : Xpu1 =... Xk4p = ip} = 00. 


Autrement dit, pour presque tout réel x de [0, 1|, n'importe quelle suite finie de 0 et de 1 
apparaît une infinité de fois dans le développement dyadique de x. 


9.4 Sommes de variables aléatoires indépendantes. 


Les sommes de variables aléatoires indépendantes jouent un rôle important en théorie des 
probabilités, et seront étudiées dans le chapitre suivant. Nous regroupons d’abord quelques 
propriétés importantes sous la forme d’une proposition. Si u et v sont deux mesures de 
probabilité sur R4, on note u*v la mesure-image de 1 @ v par l'application (x, y) — x +y : 
pour toute fonction mesurable positive y sur IR‘, 








L p(z) u * v(dz) = Î. h plz + y) u(dx)v(dy). 


Proposition 9.4.1 Soient X et Y deux variables aléatoires indépendantes à valeurs dans 
Rt. 

(i) La loi de X +Y est Px x Py. En particulier, si X a une densité notée px et Y a une 
densité notée py, X +Y a pour densité px * py. 

(ii) La fonction caractéristique de X+Y est xy (£) = Px(é)P,(£). (De manière équivalente, 
si u etv sont deux mesures de probabilité sur RÌ, pxo = 0.) 

(ii) Si X et Y sont de carré intégrable, Kx}y = Kx + Ky; En particulier, si d = 1, 
var(X +Y) = var(X) + var(Y). 








Preuve. (i) Si X et Y sont indépendantes, on sait que P{x,y) = Px & Py, et donc, pour 
toute fonction mesurable positive y sur R4, 





Elp(X +) = i A E 1 j a E | O(2) Px*Py(d2) 
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par définition de Py x Py. Si de plus X et Y ont une densité, 


EX +) = | Jet +) pxtopardy = [et)( | rxtopr(e - a)dz)dz, 


ce qui montre bien que X +Y a pour densité px x py (remarquer que px * py est ici bien 
définie presque partout comme convolution de deux fonctions de L!(R, À)). 
(ii) Il suffit d'écrire 





Pyy (£) = Efe"* eY] = Efe SX] Ele] = #x(E)dy (£). 


(Gii) Si X = (X1,...,Xa) et Y = (Yı,..., Ya), l'indépendance de X et Y entraîne que 
cov(X;, Y;) = 0 pour tous i,j € {1,...,d}. En conséquence, par bilinéarité, 


cov(X; + Yi, X; + Y;) = cov(X;, X;) + cov (Y;, Y;) 


29 











ce qui donne bien Kx1y = Kx + Ky. 





Théorème 9.4.2 (Loi faible des grands nombres) Soit (X,),>1 une suite de variables 
aléatoires réelles indépendantes et de même loi. Si E[X?] < œ, on a 


1 L? 
(++ Xa) À EU] 
Preuve. Par linéarité, 

E|=(X Opel 


En conséquence, 
1 2 1 1 
r|(=% ++ Xn) — EIX) | = ma Var (A1 +... + X,) = z2 X var(X;) = zvar) 


qui tend vers 0 quand n — œ. 0 


Remarque. La preuve montre que le résultat reste vrai sous des hypothèses bien plus faibles. 
Au lieu de supposer que les v.a. X, ont même loi, il suffit de demander que E[X,] = E[X:;] 
pour tout n et que la suite E[X?] soit bornée. Au lieu de l'indépendance, il suffit qu’on ait 
cov(Xn, Xm) = 0 dès que n Æ m, ce qui est beaucoup plus faible. 


Le mot “faible” dans la loi faible des grands nombres renvoie au fait que la convergence 
du théorème a lieu dans L?, alors que d’un point de vue probabiliste il est plus significatif 
d’avoir une convergence presque sûre, c’est-à-dire une convergence simple en dehors d’un 
ensemble de probabilité nulle (on parle alors de loi forte). Nous donnons un premier énoncé 
allant dans ce sens, qui sera considérablement amélioré dans le chapitre suivant. 


Proposition 9.4.3 Reprenons les hypothèses du théorème précédent, et supposons de plus 
que E[X{] < œ. Alors on a presque sûrement 


1 
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Preuve. Quitte à remplacer X, par Xn — E[X,], on peut supposer que E[X,] = 0. Alors, 


1 1 

EGH +X] D EX XX] 
ü,.4€{l,.n} 

En utilisantl’indépendance et la propriété EÏX,] = 0, on voit que les seuls termes non nuls 

de la somme sont ceux pour lesquels chaque valeur prise par une composante du quadruplet 

(i1, i2, i3, 4) apparaît au moins deux fois dans ce quadruplet. En utilisant le fait que les X, 

ont même loi, on trouve 


1 1 C 
E(X + + Xa))] = = (R EUX] + 8n(n — DEXA) < 5 
pour une certaine constante C < co. Il en découle que 
DEC +++ Xn))"] < o0. 
n=1 
En intervertissant somme et espérance, on obtient 
=, 1 
E| X Xn))*| < oo, 
> Gi Saee < 00 
d’où 
=, 1 
Deo +Xa))f <œ, p.s 
n=1 
ce qui entraîne l’assertion de la proposition. 0 





Corollaire 9.4.4 Si (An)n>ı est une suite d'événements indépendants de même probabilité, 
ona P 
1 p-s. 
= X la = P(A). 
n s n— 00 
i=1 
Ce corollaire fait le lien entre notre approche axiomatique moderne et la définition his- 
torique de la probabilité comme fréquence d’apparition d’un événement quand on répète un 
grand nombre de fois une expérience aléatoire. 


Revenons à la deuxième application du lemme de Borel-Cantelli donnée ci-dessus, qui 
concernait le développement dyadique 


w= N Xr(w)27* 
k=1 


d’un réel w € [0,1]. Si p > 1 est fixé, on a vu que les va. Yi = (X:,...,X,), V = 
(Xp+1;:--, X2),... sont indépendantes et de même loi. On déduit alors du corollaire que, 
pour tous ü1,...,i9 € {0,1}, 
1 : : | 1 
dw p.s. — Card{j < n : Yj(w) = (i1, ... ip) } — — 
n 


n— 00 9p° 
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Pour chaque £ € {1,...,p}, le même argument appliqué aux v.a. (Xe, Xei,- --, Xe 1), 
(Xp+e, X pH, Sps , Xəp+t-1), ... conduit à 


1 l , 1 
dw p.s. = Card{ < n : Xjpelw) etre orale ip} — = 


n= 2P° 


En combinant ces résultats on trouve 
1 

dw p.s. — Card{k < n : Xppilw) = i1,- -, Xktplw) = ip} — =. 
n 


Comme une réunion dénombrable d'ensembles de probabilité nulle est encore de probabilité 
nulle, on à aussi, pour tout w € [0,1] sauf sur un ensemble de mesure nulle : 


1 1 
Vp > 1, Vii, ..., ip € {0,1}, ~Card{k < n : Xk lw) = ü1,..., Xktplw) = ip} — — 
n 


n—00 op” 

(9.3) 

Autrement dit, pour presque tout réel w de [0, 1[, la fréquence d’apparition de n'importe 

quel bloc de longueur finie de 0 et de 1 dans le développement dyadique de w existe et est 

égale à 2? si p est la longueur du bloc. Remarquons qu’il n’est pas facile d’exhiber un réel 

w pour lequel la propriété (9.3) soit vraie. En fait, le moyen le plus rapide pour prouver 

que de tels réels existent est très certainement le raisonnement qui précède. Ceci est typique 

de l'application des probabilités à des problèmes d’existence : pour établir l'existence d’un 

objet ayant certaines propriétés, on montre qu’un objet pris au hasard (selon une loi de 
probabilité bien choisie) vérifie les propriétés en question. 


Semigroupes de convolution 
Soit J = N ou I = R. 











Définition 9.4.1 Soit (ly)se1 une famille de mesures de probabilité sur R (ou sur R?). On 
dit que (ju)1er est un semigroupe de convolution si po = ôo et si 


Hi * by = hiw, WEË EI. 


L'interprétation probabiliste est que si X a pour loi 44, Y a pour loi uy et si X et Y sont 
indépendantes, alors X + Y a pour loi 4,4 (cf la première proposition de cette partie). 


Lemme 9.4.5 Pour que (Hiter soit un semigroupe de convolution, il suffit qu’il existe une 
fonction y : R — C telle que : 





o si I =N, ME = yE, yte T; 


o si I = R, (£) = exp(—tv(é)), Yt € I. 





La preuve est immédiate puisque si 4 a la forme donnée, on a immédiatement 
A A A e OEA 
Het 5 Ht Ue 5 Ht * He 
et l’injectivité de la transformée de Fourier donne Hipy = Ht * Hy. 
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Exemples. 

(1) Z = N et, pour tout n € N*, un est la loi binômiale B(n,p) (on a fixé p € [0,1]). 
La propriété Unim = Hn * Hm est immédiate à partir de l'interprétation probabiliste de 
la loi binômiale. Alternativement on peut utiliser le lemme en remarquant que ü,(£) = 
(pe +1—p}". 

(2) I = R, et, pour tout t E€ R}, 4 est la loi de Poisson de paramètre t. Dans ce cas, 








; EE ue ; 
le) = F Te" et = exp(—4(1 — e). 
k=0 ` 





(3) I = R, et, pour tout t > 0, y, est la loi Gaussienne M (0, t). On a déjà calculé dans 
le Chapitre 8 


jte) = ep2). 


Conséquence importante. Si X et Y sont deux v.a. réelles indépendantes et 


e si X suit la loi de Poisson de paramètre À et X’ la loi de Poisson de paramètre A’, alors 
X + X’ suit la loi de Poisson de paramètre À + A’; 


e si X suit la loi gaussienne N (m, o°) et X’ suit la loi gaussienne N (m, o’?), alors X + X’ 
suit la loi gaussienne N (m + m, o? + o°). (On se ramène au cas m = m’ = 0 en 
considérant X — m et X’ — m.) 


Plus généralement toute combinaison linéaire de variables aléatoires gaussiennes indépen- 
dantes est encore gaussienne. 
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Chapitre 10 


Convergence de variables aléatoires 


La première partie de ce chapitre présente les différentes notions de convergence de variables 
aléatoires, et les liens existant entre ces notions. On établit ensuite la loi forte des grands 
nombres, qui est l’un des deux théorèmes limites fondamentaux de la théorie des probabilités. 
Le troisième paragraphe présente la convergence en loi des variables aléatoires : ce type de 
convergence est sans doute le plus délicat à comprendre, en partie parce qu’il s’agit d’une 
convergence de mesures (ce sont les lois des variables aléatoires qui convergent et non les 
variables elle-mêmes). La notion de convergence en loi, et le théorème important reliant 
cette convergence à celle des fonctions caractéristiques, permettent d'arriver au deuxième 
théorème limite fondamental qui est le théorème central limite. 


10.1 Les différentes notions de convergence 





Soient (X,)1>1, X des variables aléatoires à valeurs dans Rf, définies sur un espace de 
probabilité (Q, A, P). On a déjà rencontré plusieurs notions de convergence de la suite (X,) 
vers X. En particulier 
X, 25 X si P({weQ:X(w)= lim X,(w)}) = 1, 
et, pour p € |1, œo], 
Xn 5 X si lim EX, — X/]=0. 


Définition 10.1.1 On dit que la suite (Xn) converge en probabilité vers X, et on note 


El 


n—0O 


Xn 


si pour tout € > 0, 

lim P(X- X| >£) =0. 
Proposition 10.1.1 Soit L?a(Q, A, P) l’espace de toutes les variables aléatoires à valeurs 
dans R?, et soit L? a(Q, A, P) son quotient par la relation d'équivalence X ~ Y ssi X =Y 
p.s. Alors, la formule 





d(X,Y) = EllX -Y|A1] 
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définit une distance sur Loa(Q, A, P) qui est compatible avec la convergence en probabilité, 
au sens où une suite (Xn) converge en probabilité vers X ssi d(X,, X) tend vers 0. De plus, 
l’espace Li4(Q, A, P) est complet pour la distance d. 


Preuve. Il est facile de vérifier que d est une distance. De plus, si la suite (X,) converge 
en probabilité vers X, on a pour tout € > 0, 


EX -XTAL < EX -Xlyxs-xier] EX a XTAD xx] < E+P(Xn-X] > €). 


D’après la définition de la convergence en probabilité, cela entraîne lim sup d(X,,, X) < €, et 
puisque € était arbitraire on a d(X,, X) — 0. Inversement, si d(Xh, X) — 0, alors, pour 
tout € €]0, 1], 


P(|Xn — X| > £) <e EX, -X|A1]=Ee d(X,, X) — 0. 


n—0O 


Il reste à voir que L° est complet pour la distance d. Soit donc (X,) une suite de Cauchy 
pour la distance d. On peut trouver une sous-suite Yp = Xn, telle que, pour tout k > 1, 


d(Y, Yr41) < 7 


Alors 
ED (Yen — Yi A1)] = N d(Yr, Yen) < œ, 
k=1 k=1 


ce qui entraîne 242 (|Yk+1 — Yk| A 1) < oo p.s., et donc aussi Xg; |Yk+1 — Yk| < œœ p.s. 
(p.s. il ne peut y avoir qu'un nombre fini de valeurs de k pour lesquelles |Yp+1 — Y| > 1). 
On définit ensuite une v.a. X dans L° en posant 


XF aai) 


k=1 
Par construction, la suite (Y) converge p.s. vers X, et cela entraîne 


d(Yx, X) = EM - X| ^1] — 0, 


par convergence dominée. Donc la suite (Yp) converge en probabilité vers X, et cela est aussi 
vrai pour la suite de départ (Xn). 

La preuve précédente montre en particulier que de toute suite qui converge en probabilité 
on peut extraire une sous-suite qui converge p.s. (vers la même limite). Nous reprenons cette 
propriété dans l’énoncé suivant. 














Proposition 10.1.2 Si la suite (Xn) converge p.s., ou dans LP, vers X, elle converge aussi 
en probabilité vers X. Inversement, si la suite (Xn) converge en probabilité vers X, il existe 
une sous-suite (Xn,) qui converge p.s. vers X. 
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Preuve. La deuxième assertion a déjà été vue. Pour la première, si X, converge p.s. vers 


X 


, 


d(Xn, X) = EX» — X| ^A 1] — 0, 
par convergence dominée. Si X, converge dans L” vers X, 


(Xn X) < l|Xn — Xll < || Xn — Xle — 0. 














En résumé la convergence en probabilité est plus faible à la fois que la convergence p.s. et 
que la convergence dans L? pour n'importe quel p € [1, œo] (et a fortiori pour p = œo). Dans 
lautre sens, la convergence en probabilité entraîne la convergence p.s. pour une sous-suite, 
et la proposition ci-dessous donne des conditions qui permettent de déduire la convergence 
LP de la convergence en probabilité. 


Proposition 10.1.3 Soit (X,) une suite de v.a. convergeant en probabilité vers X. Sup- 
posons qu'il existe r El, oo[ tel que la suite (Xn) soit bornée dans L”. Alors, pour tout 
p € [1,r], la suite (Xn) converge vers X dans D. 


Preuve. Par hypothèse, il existe une constante C telle que E[|X,|"] < C pour tout n. Le 
lemme de Fatou entraîne alors E||X|"] < C et donc X € L”. Ensuite, en utilisant l'inégalité 
de Hölder, on a pour tout p € [1,r{ et tout € > 0, 


EX = X|”] 


DIR = Xe + Ell Xn -XP lixx] 
2 + El|Xn — XPP P((Xn — X| > £) 
e + PCP P(| Xn — X| > e). 





IA IA 


En utilisant l'hypothèse de convergence en probabilité, il vient 


lim sup E[|X, — X |P] < €? 


n— CO 











d’où le résultat annoncé puisque € est arbitraire. 





10.2 La loi forte des grands nombres 


Notre objectif est de montrer que si (X,) est une suite de v.a. indépendantes et de même loi, 
dans L!, alors les moyennes (X +- + Xn) convergent p.s. vers E[X:]. Nous avons déjà 
obtenu ce résultat sous l'hypothèse supplémentaire que E[|X1|*] < œ, mais nous cherchons 
maintenant à l’établir sous des hypothèses optimales. Nous commençons par un résultat 
préliminaire important. 


Théorème 10.2.1 (Loi du tout ou rien) Soit (Xn)n>ı une suite de variables aléatoires 
indépendantes, à valeurs dans des espaces mesurables quelconques. Pour tout n > 1 soit Bn 
la tribu 

Ba, =0(Xk; ken). 
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Alors la tribu asymptotique B, définie par 


est grossière, au sens où P(B) = 0 ou 1 pour tout B € Ba. 


Preuve. Posons 
Di=c(As:k< ni). 


On a observé dans le Chapitre 9 que pour tout n, D, est indépendante de B,:1, donc a 
fortiori de Bæ. Ainsi, 


vA e (Da, YB €B», P(ANB)= P(A)P(B). 


n=1l 


Puisque la classe (7, D, est stable par intersections finies, un autre résultat du Chapitre 
9 permet alors de conclure que Ba est indépendante de 


e(U?.) =0(Xn; n> 1). 


En particulier, Bæ est indépendante d’elle-même, et pour tout B € Bæ, P(B) = P(BA B) = 
P(B)?, ce qui n’est possible que si P(B) = 0 ou 1. O 

On vérifie aisément qu’une v.a. réelle mesurable par rapport à une tribu grossière est 
constante p.s. (sa fonction de répartition ne peut prendre que les deux valeurs 0 ou 1). On 
peut appliquer le théorème précédent à toute suite (Xn )n>1 de v.a. réelles indépendantes. Il 
est facile de voir que la v.a. 

lim sup Lx +...+X,) 

est mesurable par rapport à B, et cela entraîne que cette variable (à valeurs dans [—-0, co|) 
est constante p.s. En particulier, si on sait que la suite (X +--+ Xn) converge p.s. la 
limite est constante (p.s.). 

Avant d'utiliser la loi du tout ou rien pour établir la loi forte des grands nombres, nous 
donnons d’abord une application plus facile au jeu de pile ou face. 


Proposition 10.2.2 Soit (Xn)n>ı une suite de variables aléatoires indépendantes , de même 
loi donnée par P(X, = 1) = P( —1) = 4. Pour tout n > 1, posons 


Sn = Xi +X +e + Xn. 
Alors, 


p.s. SUP Sn = +00 et inf Sy = —-0. 
n>1 n21 


En particulier, il existe p.s. des entiers n arbitrairement grands tels que Sn = 0. 
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En d’autres termes si on imagine un jeu où à chaque instant entier le joueur gagne ou 
perd un Euro avec probabilité 1/2, S„ représente le gain (positif ou négatif) accumulé après 
n instants. La proposition montre que quand n — ©, Sn prend tantôt des valeurs positives 
tantôt des valeurs négatives, de plus en plus grandes en valeur absolue. 


Preuve. On commence par montrer que, pour tout entier p > 1, 


P(—p < inf Sn < sup Sn < p) = 0. 


Pour cela on fixe un entier k > 2p, et on remarque que 
X = Xir = = Xir = 1} C ({—p < inf Sn < sup Sn < p})°. 
j=0 É 


Or une application du lemme de Borel-Cantelli (cf le Chapitre 9 pour des raisonnements 
analogues) montre que l’ensemble de gauche a probabilité 1, ce qui donne le résultat annoncé. 
En faisant tendre p vers co, on trouve 


P({inf Sy > =œ} N {sup Sn < œ}) = 0, 
d’où 
P({inf Sn = —co} U {sup Sn = œ0}) = 1, 


et en particulier 
P({inf S, = —-co}) + P({sup Sn = œ}) > 1. 


Un argument de symétrie montre que 


P({inf S, = —00}) = P({supS, = 00}) 


et d’après ce qui précède ces deux probabilités sont strictement positives. Pour conclure, on 
remarque que 
{sup Sn = œ} € Ba. 


En effet, pour tout entier k > 1, 


{sup Sn = œ} = {sup(X; + Xk+ + --- + Xn) = co} € Bk 
n n>k 


et donc l'événement {sup,, Sn = œ} est mesurable par rapport à l'intersection des tribus Bx, 
c’est-à-dire B. La loi du tout ou rien montre alors que P({sup,, Sn = œ}) = 1. 














Nous passons maintenant au résultat principal de ce paragraphe. 


Théorème 10.2.3 (Loi forte des grands nombres) Soit (X,),>1 une suite de variables 
aléatoires indépendantes, de même loi, dans L!. Alors, 


1 ss. 
(Xi ++ Xn) = E[Xi]. 


n n— 00 
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Remarques. (i) L'hypothèse d’intégrabilité est optimale dans le sens où elle est nécessaire 
pour que la limite E[X;] soit bien définie (et finie). Dans le cas où les v.a. X, sont positives 
et E[X:] = œ, on montre facilement que 


1 ss. 
APEE Ka) PS 16 


en appliquant le théorème aux v.a. X, A K. 


(ii) On peut montrer que la convergence du théorème a aussi lieu dans Lt. Nous ne donnerons 
pas la preuve ici (elle sera donnée à la fin du chapitre 12 en application de la théorie des 
martingales). Du point de vue probabiliste, c’est la convergence presque sûre qui a le plus 
de signification. 


Preuve. Pour alléger les notations on pose Sn = Xi +--+ Xn, So = 0. Soit a > E[X;], et 


M = sup(S, — na) 


nEN 


qui est une v.a. à valeurs dans [0, o0]. Nous allons montrer que 
M <œ, ps. (10.1) 


Puisque l'inégalité $, < na + M est vraie pour tout n, il en découle aussitôt que 


1 
limsup—Sn <a, p.s. 
n 


n—> oo 


En considérant une suite de valeurs de a qui décroît vers E[X;], on trouve alors 


1 
lim sup —S, < E[X:], ps. 
n 


n— o0 


En remplaçant X, par —X,, on obtient l’inégalité inverse 


1 
liminf =S, > E[X:], ps. 
n=>œ n 
et l'énoncé du théorème découle de ces deux dernières inégalités. 

Il reste à montrer (10.1). On remarque d’abord que, avec les notations de la loi du tout 
ou rien, l'événement {M < œo} est dans la tribu Bœ. En effet, il suffit d'écrire pour tout 
entier k > 0, 


{M < œ} = tupla — na) < œ} = {sup(5n — Sp — (n — k)a) < co} 


et de remarquer que le dernier événement est mesurable pour la tribu o(X%11, Xx42,...). 
Pour conclure il suffira donc de montrer que P(M < ©) > 0, ou de manière équivalente que 
P(M = œœ) < 1, ce que nous ferons en raisonnant par l’absurde. 
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Commençons par quelques notations. Pour tout entier k € N, posons 
My = sup (Sn — na), 
O<n<k 
M} = sup (Sn41 — Sı — na). 
O<n<k 
Alors Mp et M} ont même loi : en effet d’une part les vecteurs (X1,..., Xg) et (X2,..., Xk+1) 
ont même loi et d’autre part on peut écrire My = F,(X1,...,X%) et M} = Fi(X2,..., Xx41) 
avec la même fonction (déterministe) F4 : R° — R. Il en découle que 








M = lim T My 
et 
M' = lim 1 M 
ont aussi même loi (écrire P(M' < x) = lim | P(M; < x) = lim | P(M < x) = P(M < x)). 


Par ailleurs, il découle des définitions que pour tout k > 1, 


Mk+ı = sup (o, sup (Sn — na)) = sup(0, M; + Xı — a), 


1<n<k+1 
ce qu’on peut encore réécrire sous la forme 
My = Mi — inf (a — X1, M). 
Puisque M} a même loi que M4 (et que ces deux v.a. sont clairement dans Lt), on trouve 
Efinf(a — Xi, M,)] = E[M;] — E[Mr-+1] = E[M;] — ElMr+] < 0 


grâce à linégalité triviale My < My,1. On peut maintenant appliquer le théorème de 
convergence dominée à la suite des v.a. inf(a — X1, M}), qui sont dominées en valeur absolue 
par |a — Xı| (rappelons que M} > 0). Il vient alors 

Eļinf(a — X;,,M")] = Jim Elinf(a — X;,M})] < 0. 

Si on avait P(M = ©) = 1, on aurait aussi P(M' = œœ) = 1, puisque les v.a. M et M’ ont 
même loi, et donc inf(a — X1, M") = a — X; p.s. Mais alors l'inégalité précédente donnerait 
Ela — Xı] < 0, ce qui est absurde puisqu'on a choisi a > E[X;]. Cette contradiction termine 
la preuve. 

















10.3 La convergence en loi 











Rappelons que Cy,(R‘) désigne l’espace des fonctions continues bornées de R? dans R, qu’on 
munit de la norme sup 


lll = sup |p(x)]. 
xERd 
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Définition 10.3.1 Une suite (un) de mesures de probabilité sur R? converge étroitement 





vers une mesure de probabilité u sur R? (on note ln Gr u) si 





Vo E€ CR‘), f sd res Jeu 








Une suite (Xn) de v.a. à valeurs dans R? converge en loi vers une v.a. X à valeurs dans R? 


(on note X, ou X) si la suite (Px,) converge étroitement vers Px. Cela équivaut encore à 


VpE CRT),  Ele(Xs)] — Elex). 


n— CO 





Remarques. (i) Il y a un abus de langage à dire que la suite de v.a. (Xn) converge en loi vers 
X, car la v.a. limite X n’est pas définie de manière unique : seule sa loi Py l’est (pour cette 
raison on écrira parfois qu’une suite de v.a. (X,,) converge en loi vers u mesure de probabilité 
sur Rd, et il faudra évidemment comprendre que la suite (Px,) converge étroitement vers u). 
Notons aussi qu'on peut considérer la convergence en loi de v.a. définies sur des espaces de 
probabilité différents (ici nous supposerons toujours implicitement qu’elles sont définies sur 
le même espace de probabilité), ce qui rend la convergence en loi très différente des autres 
convergences discutées ci-dessus. 








(ii) L'espace des mesures de probabilité sur R? peut être vu comme un sous-ensemble du 
dual C;(R1)*. La convergence étroite correspond alors à la topologie faible * sur le dual 
(topologie de la convergence simple, les éléments du dual étant vus comme des fonctions sur 
Ci(R°)). 

Exemples. (a) Si les v.a. X, et X sont à valeurs dans Zt, alors X, converge en loi vers X 
si et seulement si 








Vretl, P(X =x) — P(X = 1) 


(l'implication < demande un petit raisonnement : l'argument est facile si on sait, ce qui sera 
établi plus tard, qu’on peut remplacer C,(R°) par C,(R°) dans la définition de la convergence 
étroite). 








(b) Si les X, sont des v.a. à densité, Px, (dx) = p,(x)dx, si on suppose 
Pat) — p(z), dx p.p. 
et s’il existe une fonction q > 0 telle que fga qg(x)dx < œ et 


Yn, Prlz) <q(x), dz p.p. 





alors p est une densité de probabilité sur Rf, et X„ converge en loi vers la loi p(r)dr. Cela 
découle du théorème de convergence dominée. 

(c) Si X, est de loi uniforme sur {4, 4, ces zy, alors X, converge en loi vers la loi uniforme 
sur [0,1]. Ce résultat découle de l'approximation de l'intégrale d’une fonction continue par 
ses sommes de Riemann. 

(d) Si Xn est de loi gaussienne N (0, a?) et si on — 0, alors X, converge en loi vers la v.a. 
constante égale à 0. 
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Proposition 10.3.1 Si la suite (Xn) converge en probabilité vers X alors la suite (Xn) 
converge en loi vers X. 


Preuve. Supposons d’abord que X, converge p.s. vers X. Alors, pour toute fonction 
p E€ CR), p(Xn) converge p.s. vers p(X) et donc le théorème de convergence dominée 
entraîne E[o(X,)] — Elp(X)], d'où la convergence en loi recherchée. 

Dans le cas général, raisonnons par l’absurde en supposant que X, ne converge pas en loi 
vers X, donc qu’il existe une fonction y € C, (IR) telle que E[p(X,)] ne converge pas vers 
Elo(X)]. On peut trouver une sous-suite (ng) et € > 0 tels que [E[p(X,,)] — Ele X)| > € 
pour tout k. Mais, d’après un résultat de la partie 1, il existe une sous-sous-suite (Np) 
telle que (Xnr) converge p.s. vers X. La première partie de la preuve donne alors une 
contradiction. 




















Remarque. Il existe un cas où la réciproque de la proposition est vraie. C’est le cas où la 
v.a. limite X est constante (p.s.). En effet, si X, converge en loi vers a € R4, il découle de 
la propriété (ii) de la proposition qui suit que pour tout € > 0, 





liminf Px,(B(a,e)) > 1 
où B(a,£) est la boule ouverte de centre a et de rayon €. C’est exactement dire que Xn 
converge en probabilité vers a. 


Si (Xn) est une suite de v.a. convergeant en loi vers X, il n’est pas toujours vrai qu’on 
ait 
P(X, € B) — P(X €B) 
pour tout borélien B de R? (prendre B = {0} dans l'exemple (d) ci-dessus). On a cependant 
le résultat suivant. 








Proposition 10.3.2 Soient (un), u des mesures de probabilité sur Rt. Les quatre assertions 
suivantes sont équivalentes. 


(i) La suite (un) converge étroitement vers u. 





(ii) Pour tout ouvert G de R$, 
liminf ,(G) > (G). 





(ïi) Pour tout fermé F de R, 
lim sup 4n (F) < u(F). 





(iv) Pour tout borélien B de R? tel que u(0B) = 0, 


lim un (B) = 4(B). 





Preuve. Commençons par montrer (i)=(ii). Si G est un ouvert de R?, on peut trouver une 
suite (pp) de fonctions continues bornées telles que 0 < Yp < 1a et Yp Î Lg (par exemple 
Pplx) = pdist(x, G°) A1). Alors, 


n— oo 


lim inf w,(G) > sup (im inf f sud) = sup (J odn) = u(G). 
p Fr p 
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L'équivalence (ii) (iii) est immédiate par passage au complémentaire. 
Montrons que (ii) et (iii) entraînent (iv). Si B € B(R), 





[0] 


lim sup u,(B) < lim sup 4n(B) < u(B) 
lim inf un (B) > liminf u,(B) F 


> (B). 


Si u(0B) = 0 on a u(B) = u(B) = u(B) et on obtient (iv). 

Il reste à montrer l'implication (iv)=(i). Soit y € C ,(R!). Quitte à décomposer y = 
pT — (7 on peut supposer y > 0. Soit K > 0 tel que 0 < y < K. Alors le théorème de 
Fubini montre que 


foma- fÒ f tesaend)ute = f EPa 


où Ef = {x ER: y(x) > t}. De même, pour tout n, 








[oema f E m(Ef)dt. 





Remarquons que 0E? C {x € R? : y(x) = t}, et qu'il existe au plus une infinité dénombrable 
de valeurs de t telles que 





u({x ER: (x) =t}) > 0 
(en effet il y a au plus k valeurs distinctes de t telles que u({x € R? : y(x) = t}) > 
(iv) entraîne 





+). Donc 


Hn(E?) —> Ef), dt pp. 


et par convergence dominée on obtient 


fem = Pret = [atout f oaa) 














Conséquence. Une suite (X,) de v.a. réelles converge en loi vers une v.a. X si et seulement 
si les fonctions de répartition Fx,(x) convergent vers Fx(x) en tout point x où Fy est 
continue. L’implication = découle immédiatement de la propriété (iv) ci-dessus. Dans 
l’autre sens, on observe que sous la condition de convergence des fonctions de répartition (en 
tout point où Fy est continue), on a pour tout x ER, 





lim inf Fx,(x—) > Fx(x—), 
lim sup Fx, (x) < Fx(x). 


Il découle de cette observation que la condition (ii) de la proposition est satisfaite pour 
Un = Px, et u = Px lorsque G est un intervalle ouvert. Il suffit ensuite d’écrire un ou- 
vert quelconque comme réunion dénombrable disjointe d’intervalles ouverts pour aboutir au 
résultat désiré. 





Rappelons la notation CQ(IR{) pour l’espace des fonctions continues à support compact 
sur R°. 
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Proposition 10.3.3 Soient (un) et u des mesures de probabilité sur R. Soit H un sous- 
ensemble de Cy(R1) dont l’adhérence (pour la norme sup) contient C,(R‘). Les propriétés 
suivantes sont équivalentes : 








(i) La suite (un) converge étroitement vers u. 


(ii) On a 





Vo E€ CARI), J sd — foan 
(iii) On a 
VoeH, fodun — f odn 


Preuve. Il est évident que (i)=(ii) et (i)=(iii). Supposons ensuite que (ii) est satisfaite. 
Soit w € Ca(R?) et soit (fp) une suite de fonctions dans C,(R?) telles que 0 < fẹ < 1 et 
fk T 1 quand k — co. Alors pour tout k, wf, € C,(RŸ) et donc 


f Y fr dhin es I yfr du. 
| | pdun — f Pfr din 


| f oan- f fr du < (sup lex) ) (1- | fdu) 











Par ailleurs, 





< (suply(x)|) ( (1- fau), 


xeR 


Donc, pour tout k, 


imsup| f vd, = f edu 


IA 


ae a- fram) 


xeR n= 


= 2(sup ke(e) J0- fran) 


Il suffit maintenant de faire tendre k vers oo pour trouver que f pdun converge vers f pdp, 
et on a établi (i). 

Il reste à montrer (iii)=(ii). On suppose donc que la propriété (iii) est satisfaite. Ensuite, 
si Y € C.(R1), on peut pour chaque entier k > 1 trouver une fonction yp € H telle que 
ly — gxll < 1/k. Mais alors, pour tout k > 1, 





limsup| | pdun — f pdul 


; 2 
< lim sup (1 f odua = f oranal +1 f ordin- f odul +1 f gadu- f odul) < T 
Comme k est arbitraire cela donne f pdun — f pdu, d’où la propriété (ii). 0O 
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Théorème 10.3.4 (Lévy) Une suite (un) de mesures de probabilité sur R? converge étroite- 
ment vers une mesure de probabilité u sur R? si et seulement si 


VEER Male) — RE: 


n—> oo 











De manière équivalente, une suite (X„) de variables aléatoires à valeurs dans R? converge 
en loi vers X si et seulement si 


VEERT, x, (E) — Px(é). 


n— oo 





Preuve. Il suffit de montrer la première assertion. D'abord, si on suppose que la suite (Hn) 
converge étroitement vers u, la définition même de cette convergence assure que 





VEERE, Pale) = | E lde) — | enan) = PE. 





Supposons inversement que H,(£) — A(E) pour tout E € R? et montrons qu’alors la suite 
(Un) converge étroitement vers u. Pour alléger l'écriture on traite seulement le cas d = 1. 
Soit f € Ce(R) et pour tout o > 0 soit 





2 


202 


E si 


osan 


Alors on a déjà observé à la fin du Chapitre 8 que go x f converge simplement vers f quand 
o — 0. En fait on vérifie aisément que cette convergence est uniforme sur R. 

Par ailleurs, si v est une mesure de probabilité sur R, on a vu dans la preuve du théorème 
d’injectivité de la transformée de Fourier (fin du Chapitre 8) que 


Jos rare | ta) grvade= | H(I | eol- dE)dz. 


Puisque f, (£) — {i(£) pour tout € € R, le théorème de convergence dominée entraîne que 











f E Or (ot — f ouR- 


et puisque ces quantités sont bornées en module par 1, on peut utiliser la formule précédente 
et à nouveau le théorème de convergence dominée pour obtenir que 


Jos fau — fortan 


Finalement, soit H le sous-espace de C,(R°) défini par 





H={p=g,*xf:0o>0e f ECRI}. 





Alors l’adhérence de H dans Cy(R°) contient C,(R°) (on a remarqué que si f € C.(R°), 
lgo * f — f|| tend vers 0 quand o — 0) et on vient de montrer que f ydun — fydu 
pour toute fonction y € H. D’après la proposition précédente, cela suffit pour donner la 
convergence étroite de la suite (un) vers p. O 














136 


10.4 Deux applications 


10.4.1 La convergence des mesures empiriques 





Soit (X,)1>1 une suite de variables aléatoires à valeurs dans R‘, indépendantes et de même 
loi. Ces variables peuvent représenter les résultats successifs d’une même expérience aléatoire 
répétée de manière indépendante. Un problème statistique fondamental est d’estimer la loi 
de X; à partir de la donnée de Xi (w), Xo(w),..., X,(w) pour une seule valeur de w. 


Exemple : théorie des sondages. Imaginons qu’on a une population de N individus 
numérotés 1,2,..., N . L’entier N est supposé “très grand” (on peut penser à la population 
française). A l'individu i est attaché un paramètre a(i) € R? (par exemple, l’âge de l'individu, 
son intention de vote, son revenu mensuel, etc.). Si À € B(R‘), on s'intéresse alors à la 
quantité 








nA) = 5 D lali) 


qui est la proportion d'individus dans la population dont le paramètre est dans A (par 
exemple la proportion d'individus de plus de cinquante ans qui ont lintention de voter 
Chirac et ont un revenu mensuel supérieur à 2000 Euros). 

Comme N est très grand, il est hors de question de calculer exactement (A). Le principe 
d’un sondage est alors de choisir un échantillon de la population, c’est-à-dire de prendre au 
hasard n individus (n grand mais petit devant N) en espérant que la proportion d'individus 
choisis dans cet échantillon pour lesquels le paramètre est dans A sera proche de la même pro- 
portion calculée pour la population totale. Pour rendre ceci précis en termes mathématiques, 


on se donne une famille Y1,..., Yp de variables aléatoires indépendantes de loi uniforme 
sur {1,..., N} (ce sont les individus de notre échantillon). La valeur du paramètre pour 
l'individu Y; est X; = a(Y;). Les v.a. X:,...,X, sont évidemment indépendantes et de 


même loi. De plus, cette loi est 


N 
1 ; 
P(A) = P(Y) € A) = ES talali) = (A). 
i=1 
Par ailleurs, la proportion calculée sur les individus de l’échantillon est 
j=1 


59 14(X;(w)) = LY dxo (A) 


Finalement, la question de savoir si la proportion calculée sur l'échantillon est proche de 
la proportion réelle u( A) se ramène à vérifier que la mesure, dite “mesure empirique” 
7 i 


1 nm 
ñ `> Ôx; (w) 
j=1 
est proche de Py, quand n — œo. Le théorème suivant apporte une réponse à cette question. 
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Théorème 10.4.1 Soit (X,),>1 une suite de variables aléatoires indépendantes et de même 
loi, à valeurs dans R°. Pour tout w € Q et tout n > 1, soit a, la mesure de probabilité sur 
R? définie par 








Alors, p.s., 


Remarque. D'un point de vue pratique, le théorème précédent n’a aucun intérêt si on n’a 
pas d’estimation de la vitesse de convergence. En revenant à l’exemple donné avant l’énoncé 
du théorème, il faut que la mesure empirique Hn, soit “suffisamment proche” de Py, pour 
des valeurs de n grandes mais petites devant la taille N de la population (en pratique, N est 
de l’ordre de 107 et n seulement de l’ordre de 10°). 


Preuve. Soit H un sous-ensemble dénombrable dense de C{(R°). Si y € H, la loi forte des 
grands nombres appliquée aux v.a. &(X;) assure que 





LYX) 25 EX] 


On peut réécrire cela sous la forme 


f odin = fodPu 


Puisque H est dénombrable, quitte à écarter une réunion dénombrable d’ensembles de prob- 
abilité nulle, on obtient 


ps. VY € H, f odina — Je 


D’après une proposition du paragraphe précédent, cela suffit pour dire que p.s. Hn,„ converge 
étroitement vers Px,. oO 


10.4.2 Le théorème central limite 


Soit (Xn)n>1 une suite de variables aléatoires réelles indépendantes et de même loi, dans Lt. 
La loi forte des grands nombres montre que 


1 ss. 
eA 2 EX] 


On cherche alors à savoir à quelle vitesse cette convergence a lieu, c’est-à-dire quel est l’ordre 
de grandeur de la différence 


L (Xa ++ Xn) — EUX 
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quand n est grand. 
Sous l’hypothèse supplémentaire que les variables X; sont dans L?, on devine la réponse 
en calculant, comme dans la preuve de la loi faible des grands nombres, 


E(X ++ Xn —nE[X:])] = var(X: +: + Xn) = n var( X1). 
Ce calcul indique que la valeur moyenne de (Xi +--+ + Xn — n E[X;])? croît linéairement 
avec n, donc suggère fortement que l’ordre de grandeur de X1 +-:-+ Xn — n E[X;] est yn, 
ou encore que l’ordre de grandeur de +(X; +-+- + Xn) — E[X:] est 1/yn. Le théorème 
central limite rend ceci plus précis. 


Théorème 10.4.2 (Théorème central limite) Soit (Xn)n>ı une suite de variables aléatoires 
réelles indépendantes et de même loi, dans L?. Soit o? = var(X;). Alors, 
1 (loi) 


NA +- + Xn -nE[X:)) nn (0, o°) 


où N(0, a?) désigne la loi gaussienne centrée de variance o°. De manière équivalente, pour 
tous a, bE R avec a < b, 





1 ` r? 
lim P(X: +.. +Xn E MmE|X:] + avn, nE[X:] + bVn)) = a. exp(— 572) dx. 


n— oo 


Preuve. La deuxième partie de l’énoncé est une conséquence de la première, compte-tenu 
de la formulation de la convergence en loi en termes des fonctions de répartition (noter ici 
que la fonction de répartition de la variable limite est continue). Pour montrer la première 
partie de l’énoncé, on remarque d’abord qu’on peut supposer E[X:] = 0, quitte à remplacer 
Xn par Xn — E[X,]. Posons alors 


1 
Zn = —(Xi ++ Xn). 
eT. 1+ + ) 


La fonction caractéristique de Z, est 


GA (8) = Efo (EE ))] = afer (x) = ex HD 


où, dans la seconde égalité, on a utilisé le fait que les v.a. X; sont indépendantes et de même 
loi. D’après un résultat du Chapitre 8, on a 
o? g? 
2 





Px, (E) = 1 + EX] — SÉEUXE] + ol) = 1- TÉ Hoe?) 





quand é — 0. Pour € € R fixé, on a donc aussi 


see 


Va 


o?€? 
2n 





+o(Ž) 


139 





quand n — co. En combinant avec ce qui précède, on a pour tout £ € R, 


262 1 A o? 2 
+ o(=))" = expl- 








lim ®z,(£) = lim (1 - 


n— OO n— OO 


) = y (£). 


si U suit la loi W(0,a?). Le théorème de Lévy permet maintenant de conclure que Z, 
converge en loi vers U, ce qui est le résultat du théorème. 0 


Cas particulier : Théorème de de Moivre. On suppose que les X, sont des variables 


de Bernoulli de paramètre à (i.e. P(X, = 1) = P(X„ = 0) = +) indépendantes. Alors 


Sn = Xı +- + Xn suit une loi binômiale B(n, à) : 
P(Sn = k) = C827”. 
Comme o? = 1/4 dans ce cas particulier, le théorème entraîne que, pour tous a < b, 
DE D GE V2 f e 2 dx 
nn. | 
ý n— 00 T. ä 
$+ayn<k<$+byn 


Cette dernière convergence peut être vérifiée directement (avec certains efforts) à l’aide de 
la formule de Stirling. On montre en fait un résultat plus précis de la forme 


V2 C = V2 ep(-4(k — 2)? + o(1) 


avec un reste o(1) uniforme quand k varie dans {0,1,...,n}. 


10.4.3 Extension au cas vectoriel 


Supposons maintenant que (X,),>1 est une suite de variables aléatoires indépendantes de 
même loi à valeurs dans R‘ et intégrables. Alors, on peut appliquer la loi forte des grands 
nombres coordonnée par coordonnée pour obtenir 





1 s. 
(X++ Xn) 25, E|Xı], 


n n— 00 


où la limite E[X:] s’interprète évidemment comme le vecteur (E[X}],..., E[X4]) si on a 


écrit X = (X1,...,X%). Supposons de plus que les v.a. X, sont de carré intégrable. Il 
n’est pas aussi facile d'obtenir une version multidimensionnelle du théorème central limite : 
contrairement à ce qui se passe pour la convergence presque sûre, il ne suffit pas pour 
obtenir la convergence en loi d’une suite de v.a. à valeurs dans R? de savoir que chaque 
suite coordonnée converge en loi (on peut aussi remarquer que la loi de la limite n’est pas 
déterminée par la connaissance de chacune de ses marginales). 

Pour étendre le théorème central limite au cas de v.a. à valeurs dans R‘, nous devons 
commencer par généraliser la notion de loi gaussienne. 
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Définition 10.4.1 Soit C une matrice d x d à coefficients réels, symétrique positive. Une 
v.a. X à valeurs dans RÌ, de carré intégrable, est appelée vecteur gaussien centré de covari- 
ance C si 








: 1 
VEER x(é) = Be] KO: 
On dit aussi que X suit la loi N (0, C'). 





Remarque. Soit a € R1. On dit plus généralement que X suit la loi N (a, C) si X — a suit 
la loi M (0, C). 


On a vu dans le Chapitre 8 que si X = (X!,..., Xf) est une v.a. à valeurs dans R’ et 
de carré intégrable, on a le développement limité 





PrO 1HP EE-D D ge BIX] + olle?) 


quand £ — 0. On en déduit immédiatement que si X suit la loi M (0, C) on a E[X] = 0 et 
Ky =C. 


Proposition 10.4.3 Soit C une matrice symétrique positive. Il existe un vecteur gaussien 
centré de covariance C. 


Preuve. Rappelons d’abord (voir la fin du Chapitre 9) qu’une combinaison linéaire de v.a. 
gaussiennes indépendantes est encore gaussienne. 

On pose À = VČ de sorte que A est une matrice symétrique positive et A? = C. Soient 
ensuite Y!,...,Y4 d v.a. réelles indépendantes de loi M (0,1). Soit Y la v.a. à valeurs dans 
R? dont les coordonnées sont Y!,..., Y4. Alors, X = AY suit la loi M (0, C). Pour le voir, 
considérons £ € R? et observons que £- X est une combinaison linéaire des v.a. Y!,...,Y4, 
et est donc une v.a. gaussienne centrée. Précisément, £- X suit la loi M (0, o?) avec 








o° = E|(Ẹ - X)?] = ElEAY - Y AË] = ‘ÉAE(Y 'Y] AE = *EA’E = 'ECE, 


en calculant de manière matricielle, et en utilisant le fait que E[Y *Y] = Id puisque les 
coordonnées de Y sont des v.a. de loi M (0, 1) indépendantes. Finalement, grâce à la formule 
pour la fonction caractéristique d’une v.a. de loi M (0, o°), on a pour tout u > 0, 


2o 
Ele €X] = exp(- 





2 
) = exp(—— ECE) 


et en prenant u = 1 on a le résultat voulu. 0 
Remarques. (i) Avec les notations de la preuve ci-dessus, Y suit la loi M (0, Id). 

(i) Une v.a. X à valeurs dans R est un vecteur gaussien centré si et seulement si toute 
combinaison linéaire de ses composantes est gaussienne centrée : en effet on a alors E[et®*] 
exp(—3 E[(: X)°]) = exp(-3 4K x6). 

Exercice. Soit X un vecteur gaussien centré. Montrer que X a une densité si et seulement 
si Kx est non dégénérée, et calculer alors la densité de X. 
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Théorème 10.4.4 (Théorème central limite vectoriel) Soit (X,),>1 est une suite de 
variables aléatoires indépendantes de même loi à valeurs dans R?, de carré intégrable. Alors, 





1 (loi) 


Preuve. C’est la même que dans le cas réel. On peut supposer E[X;] = 0. Ensuite, pour 
tout £ € Rf, 





E| exp (ie | (Št t))] 


D’autre part, on sait que 


1 1 
)=1- EK xE + o2). 


£ 
Pi T 


On conclut que 


s EES A i 
n) = exp(-3 EKx,£), 


d’où le résultat grâce au théorème de Lévy. 0 


n— CO 


lim El exp (ie -( 
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Chapitre 11 


Conditionnement 


Ce chapitre est consacré à la construction et aux propriétés de l’espérance conditionnelle. 
Intuitivement, l’espérance conditionnelle d’une variable aléatoire réelle donnée par rapport 
à une sous-tribu est la variable aléatoire mesurable pour cette sous-tribu qui est la “plus 
proche” de la variable aléatoire donnée. Pour de nombreux problèmes concrets (prédiction, 
observation incomplète, etc.) il est important de pouvoir estimer une variable aléatoire sur 
laquelle on n’a qu’une information partielle, et l’on comprend dès lors l’importance de la 
notion d'espérance conditionnelle. La définition axiomatique de cette notion (dans laquelle 
la “propriété caractéristique” joue un rôle essentiel) est motivée par le cas discret traité dans 
le premier paragraphe. Le calcul explicite des espérances conditionnelles, qui est en général 
un problème difficile, est illustré sur plusieurs cas, dont le cas gaussien particulièrement 
important pour les applications. La notion de loi conditionnelle, utile dans ce cours d’un 
point de vue conceptuel surtout, est introduite à la fin du chapitre. 


11.1 Conditionnement discret 


Comme dans les chapitres précédents on se place sur un espace de probabilité (Q, A, P). Soit 
B € A un événement tel que P(B) > 0. On peut définir une nouvelle probabilité sur (Q, A), 
appelée probabilité conditionnelle sachant B, en posant pour tout A € A, 


P(ANB) 
P(A| B) = ———— 
(AlB) = 
De même, pour toute v.a. X > 0, ou pour X € L!(Q, A, P), l'espérance conditionnelle de 
X sachant B est définie par 
EIX 13] 


EX = 


Cette quantité est aussi l’espérance de X sous la probabilité P(- | B), et elle s’interprète 
comme la valeur moyenne de X quand B est réalisé. 

Nous cherchons ensuite à définir l’espérance conditionnelle sachant une variable aléatoire 
(et non plus sachant un événement). Considérons une v.a. Y à valeurs dans un espace E 
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dénombrable. Soit E” = {y € E : P(Y = y) > 0}. Pour tout y € F’, et pour toute v.a. 
X € L'(Q, A, P), on peut définir, comme cas particulier de ce qui précède, 
EX 1-7 


EXIY=ue ES 


Définition 11.1.1 Soit X € L'(Q,A,P). L’espérance conditionnelle de X sachant Y est 
la variable aléatoire réelle définie par 


E[X|Y] = (Y), 





où la fonction y : E — R est donnée par 


_ J PIXIY =y]  siyer", 
et) ={ si y € E\E". 


Remarque. Le choix de la valeur de y sur E\E est arbitraire : de toute façon ce choix 
n’influence la définition de E[X |Y] que sur un ensemble de probabilité nulle, puisque 


PYEE\E)= X, PY =yj=0: 


yEE\E' 


On pourrait changer la définition de y sur E\£ et cela donnerait la même v.a. E[X |Y] à 
un ensemble de mesure nulle près. Dans les situations plus générales que nous rencontrerons 
plus tard, les espérances conditionnelles (sachant une v.a. ou une tribu) seront toujours 
définies à un ensemble de probabilité nulle près. 


En comparant avec le conditionnement par rapport à un événement, on observe que 
l'espérance conditionnelle E[X |Y] est maintenant une variable aléatoire : c’est la v.a. qui 
donne la valeur moyenne de X quand on connait Y : p.s., 


EIXIY]&w) = EIX|Y =y], si Y(w) =y. 


Remarquons aussi que E[X |Y] est une fonction de Y donc une v.a. o(Y )}-mesurable. Dans 
un sens qui sera précisé plus loin, c’est la meilleure approximation de X par une fonction de 
ie 


Exemple. Lancer d’un dé. On prend Q = {1,2,...,6} et P({w}) = į pour tout w € Q. 


Soient 
1 si w est impair, 
0e l 0 siw est pair, 


et X(w) =w. Alors, 


HoA oebre 


Proposition 11.1.1 On a E||E[X |Y]|] < E[|X|}. En particulier, E[X |Y] € L! (Q, A, P). 
De plus, pour toute v.a. Z o(Y )-mesurable bornée, 


E[ZX] = E[Z E[X|Y]]. 
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Preuve. D'après la définition de l’espérance conditionnelle E[X |Y], on a 


AEG 
BIEKIN = D PY = 0 EE < D EIX nl = PIXI 


yEE' yeE 


Pour la dernière assertion, on utilise le fait qu’on peut écrire Z = (Y), avec une fonction 
4 bornée. Alors, 


EWY) EIX IYI] = XC yu) EIX leu] = dE )X Lu] = EWY )X]. 


yEE yEE 














Conséquence. Si Y’ est une autre v.a. discrète telle que o (Y) = o(Y'), on a 
EX |Y] = EX |Y" p-s. 


En effet, en appliquant la proposition avec Z = Ligix|y]>ex1y"}, qui est bien mesurable pour 
o(Y) = o(Y') puisque E[X|Y] et E[X|Y"] le sont, on trouve 


Eflexiexy(E[X|Y]- EX |Y] = 0 


d’où E[X |Y] < E[X|Y"] p.s., et on obtient de même l’autre inégalité. Cela montre aussi que 
la dernière propriété de la proposition caractérise E[X |Y] parmi les v.a. o(Y )-mesurables 
et intégrables. 

L'observation précédente conduit à dire que la “bonne” notion de conditionnement est 
la notion de conditionnement par rapport à une tribu. C’est cette notion que nous allons 
développer dans les paragraphes suivants en nous basant sur la propriété de la proposition 
ci-dessus. 


11.2 La définition de l’espérance conditionnelle 


11.2.1 Cas des variables intégrables 


Théorème et définition 11.2.1 Soit B une sous-tribu de A, et soit X € L'(Q,A,P). Il 
existe alors une unique variable aléatoire dans L! (Q, B, P), notée E[X |B], telle que 


VBEB, E|X 12] = E[E|X |B] 15]. (11.1) 
On a plus généralement, pour toute variable aléatoire Z B-mesurable bornée 
EIX Z] = E[EIX |8] Z]. (11.2) 
Si X > 0 on a aussi E|X |B] > 0 


Le point crucial est le fait que E[X |B] est mesurable pour la tribu B. D’une ou l’autre 
des propriétés (11.1) et (11.2) caractérise lespérance conditionnelle E[X | B] dans la classe 
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des v.a. de L!(Q, B, P). Dans la suite nous ferons référence à l’une ou l’autre comme à la 
propriété caractéristique de l’espérance conditionnelle. 
Dans le cas particulier où la tribu B est engendrée par une variable aléatoire Y, on écrira 
indifféremment 
EX |B] = E[X MISE XI I 
Cette notation est cohérente avec le cas discret traité dans la partie précédente : comparer 
(11.2) et la proposition ci-dessus. 


Preuve. Commençons par l’unicité. Soient X’ et X” deux v.a. dans L'(Q,B, P) telles que 
VBEB, E[X" 13] = EX 13] = E[X" 15]. 
En prenant B = {X' > X”} (qui est bien B-mesurable puisque X’ et X” le sont), on trouve 
EUX = X") l>xn]=0 


d'où X’ < X” p.s., et de même X’ > X” p.s. 
Pour lexistence, supposons d’abord X > 0, et soit Q la mesure finie sur (Q, B) définie 
par 
VBEB, Q(B) = EX 13]. 
Alors, si on voit aussi P comme une mesure de probabilité sur (Q, B), il est immédiat qu’on 
a Q € P. Le théorème de Radon-Nikodym, appliqué sur l’espace mesurable (Q, B), assure 
donc l'existence d’une v.a. X B-mesurable positive telle que 


VBEB,  E[X1g] = Q(B) = EX 1s]. 


En prenant B = Q, on voit que E[X] = E[X] < oo, donc X € L'(Q,B,P). Finalement, 
E[X |B] = X vérifie la propriété de énoncé. Lorsque X est de signe quelconque, il suffit de 
prendre 
EX |B| = E[X+ |8] - E[X" |8]. 
Enfin, le passage de (11.1) à (11.2) se fait en utilisant l'approximation usuelle des fonctions 
mesurables par des fonctions étagées. 

















Exemple. Prenons Q =]0, H A = B(]0,1]) et P(dw) = dw. Soit B la tribu engendrée par 
les intervalles =, 2], iE [1 .,n},oùn > 1 est fixé. Un élément f de L!(Q, A, P) est une 
fonction mesurable f :]0, 1] — R telle que IH |fF(w)ldw < oo. Alors on vérifie très facilement 
que 

Elf | B] B] = 2 fi lji i= 1 i] ` 
où fi = nn w)dw est la moyenne de f sur |, À]. 


Propriétés de l’espérance conditionnelle. 
(a) Si X est B-mesurable, E[X |B] = 


(b) L'application X — E[X |B] est linéaire. 
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(c) E[E[X |B]] = E[X]. 
(d) |EIX|B]| < E[|X||B] p.s., et en conséquence E[|E[X | B]|] < E[|X||. 
(e) X > X' + EIX|8] > BR Bys. 


Preuve. (a) découle immédiatement de l’unicité dans le théorème ci-dessus. Il en va de 
même pour (b) en observant que, si X, X’ € L!(Q,A4,P)et a, a € R, la va. 


a E[|X |B] +a'E|X"|B] 


satisfait la propriété caractéristique (11.1) pour aX + a'X’'. La propriété (c) est le cas 
particulier B = Q dans (11.1). Pour (d), rappelons que si X > 0 on a E[X |B] > 0. Cela 
entraîne 


|E[X |B]| = |E[X+ |8] - E[X7 |B]| < E[X*|8]] + EX" |5] = E[IX|18]. 


Enfin, (e) est immédiat par linéarité. oO 


11.2.2 Cas des variables positives 


Théorème 11.2.2 Soit X une variable aléatoire à valeurs dans |0, o0]. La formule 
E|X |B] = lim fT E[X An] B] p.s. 


définit une variable aléatoire à valeurs dans [0,œ0], qui est caractérisée (à un ensemble de 
probabilité nulle près) par la propriété suivante : pour toute variable aléatoire Z B-mesurable 
positive, 

E[XZ] = E[E|X |B]7Z1. (11.3) 


Dans le cas où X est aussi intégrable, en comparant la dernière propriété du théorème 
avec (11.1), on voit immédiatement que l’on retrouve la même définition de E[X | B] que 
dans le paragraphe ci-dessus. De même que dans le cas des variables intégrables, la propriété 
(11.3) sera appelée propriété caractéristique de l’espérance conditionnelle. 


Preuve. La croissance de la limite dans la définition de E[X | B] découle de la propriété 
(e) ci-dessus. Ensuite, si Z est B-mesurable positive, le théorème de convergence monotone 
entraîne que 


E[E(X |B]Z] = lim E[E[X An|B(Z An)] = lim E[(X An)(Z An)] = E[XZ] 


Il reste à établir l’unicité. Soient donc X’ et X” deux variables aléatoires B-mesurables à 
valeurs dans [0, co] telles que 
E[X'7] = E[X"7] 


pour toute v.a. Z B-mesurable positive. Prenons 
Z = l{x'<a<b<X"} 
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où on a fixé a,b € Q}, avec a < b. Il vient 
aP(X'<a<b< X") >bP(X'<a<b< X") 


ce qui n’est possible que si P(X’ < a < b < X") = 0. On a donc 


P( U {X'<a<b<x"}) =i 
a,bEQ+ 
a<b 


ce qui entraîne X’ > X” p.s. Par un raisonnement symétrique on a aussi X” > X’ p.s. O 


Remarque. On peut avoir X < œœ p.s. et simultanément P(E[X | B] = œ) > 0. Par 
exemple, si B = {Ø, Q}, on vérifie aisément que E[X | B] = E[X], qui peut bien sûr être 
infini pour des v.a. X finies p.s. Pour donner un exemple moins trivial, reprenons le cas où 
Q =]0, 1], B = o(] 54, {ie {1,...,n}) et P(dw) = dw. Alors, si X(w) = ż, on a 


n’n 


E|X |5] = 00 ljo,4] + Sn log(—) lin ij. 
i=2 
Propriétés. 
(a) Si X et X’ sont des v.a. positives et a,b > 0, 
ElaX +bX'|B] = a E[X | B] + b ELX’ |B]. 
(b) Si X est B-mesurable, E[X |B] = X. 
(c) Si (Xn) est une suite croissante de v.a. positives, et X = lim Ù Xn, 


EIX |B] = lim f E[X,|B], p.-s. 
(d) Si (Xn) est une suite de v.a. positives, 
E|liminf X, |B] < liminf E[X, |B], p-s. 


(e) Soit (X„) une suite de v.a. intégrables convergeant p.s. vers X. Supposons qu’il existe 
une v.a. positive Z telle que [X,] < Z p.s. pour tout n, et E[Z] < œ. Alors, 


E|X |B] = lim E[X,|B], p.s. et dans L*. 


(f) Si f est convexe positive, et si X € Lt, 


E[f(X)18] > f(E[X|8]). 
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Remarque. La mention “p.s.” devrait figurer dans chaque énoncé impliquant une espérance 
conditionnelle, puisque celle-ci n’est définie qu’à un ensemble de probabilité nulle près. Le 
plus souvent cependant, cette mention est sous-entendue, comme dans (a),(b) et (f) ci-dessus. 
Preuve. (a) et (b) sont faciles en utilisant la caractérisation de E[X | B] donnée dans le 
théorème. 

(c) Il découle de (a) que si X1 > Xə > 0 on a E[X; |B] > E[X2|B]. Sous les hypothèses 
de (c), on peut donc poser X’ = lim Ù E[X, |8], qui est une v.a. B-mesurable à valeurs dans 
[0, |. On a alors, pour toute v.a. Z B-mesurable positive, 

E[ZX'] = lim Î E[ZEIX, | B]] = lim f E[Z X,] = E[ZX] 
ce qui d’après la caractérisation du théorème entraîne X’ = E[X |B]. 

(d) On écrit, en utilisant (c), 

Eli (inf x.) | B| 


= lim 7 E| inf X, | 


< lim (inf EUX, | 81) 


kfoo \n>k 
= liminf E[X, |8]. 
(e) Il suffit d'appliquer (d) deux fois : 
Efliminf(Z — X,)|B] 
Efliminf(Z + X,)|B] 


Elliminf X, |B] 





< E[Z|B] — lim sup E[X, |B] 
< E[Z|B] + liminf E[X, |B] 


ce qui conduit à 
E|X |B] < liminf E[X, |B] < lim sup E[X, |B] < EX |5], 
d’où la convergence p.s. recherchée. La convergence L! est maintenant une conséquence 
du théorème de convergence dominée, puisque [E[X, | B]| < EllXn| | B] < E[Z | B] et 
E|E|Z|B]] = E[Z] < œ. 
(f£) Notons 








Ep = {(a,b) E R? : Vx € R, f(x) > ax +b}. 


Alors, il est facile de vérifier que 





VzeR, f(x) = sup (ax+b)= sup (ax +b). 
(a.b)eE} (a,b)E E NQ? 


En utilisant le fait que Q? est dénombrable, on en déduit que p.s. 


E[f(X)|B] = | sup (aX +6) | B] > sup EļaX +b|B] = (EIX |B). 
(a,b)E E NQ? (a,b)E E NQ? 














Remarque. Par analogie avec la formule P(A) = Efl1], on écrira souvent pour À € A, 
P(A|B) := E|14 |B]. 


Prendre garde cependant que P(A|B) ainsi définie est une variable aléatoire. 
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11.2.3 Le cas particulier des variables de carré intégrable 


Dans le cas où X est de carré intégrable, il existe une autre interprétation remarquable de 
EX |B]. Avant d’énoncer le résultat, observons que L?(Q, B, P) s'identifie à un sous-espace 
fermé de L?(Q, A, P), à savoir l’espace des éléments de L?(Q, A, P) dont un représentant au 
moins est B-mesurable. 


Théorème 11.2.3 Si X € L?(Q, A, P), alors EX | B] est la projection orthogonale de X 
sur L?(Q,B, P). 


Preuve. La propriété (f) ci-dessus montre que E[X |B]? < E[X?]|B] p.s. Cela entraîne que 
E[EIX |B}°] < E[X*] < œ, et donc la v.a. E[X |B] est dans L?(Q, B, P). 
Par ailleurs, pour toute v.a. Z B-mesurable bornée, 


E[Z(X - E|X |B))] = E[ZX] - E[ZE[X | BJ] = 0, 


toujours d’après la propriété caractéristique de E[X |8]. Donc X — E[X |B] est orthogonal 
à toutes les v.a. bornées B-mesurables, et par un argument de densité, X — E[|X | B] est 
orthogonal à L?(Q, B, P). Le résultat annoncé en découle. oO 


On peut utiliser le théorème précédent pour donner une autre construction de l’espérance 
conditionnelle, évitant le recours au théorème de Radon-Nikodym, en commençant par le 
cas des v.a. de carré intégrable. Observons aussi que ce théorème donne une interprétation 
intéressante de l’espérance conditionnelle : si X est de carré intégrable, E[X | B] est la 
meilleure (au sens de la norme L?) approximation de X par une v.a. B-mesurable. 





11.3 Propriétés spécifiques de l’espérance condition- 
nelle 


Les propriétés établies ci-dessus sont analogues aux propriétés de l’espérance (ou de l'intégrale 
de fonctions mesurables). Nous établissons dans ce paragraphe des propriétés plus parti- 
culières à l’espérance conditionnelle. 


Proposition 11.3.1 Soit X une variable aléatoire réelle, et soit Y une variable aléatoire 
B-mesurable. Alors, 
E[YX|B] = Y EX |B] 


dès que les espérances conditionnelles sont bien définies, c’est-à-dire si X et Y sont positives, 

ou si X et YX eL. 

Preuve. Supposons X > 0 et Y > 0. Alors, pour toute v.a. Z B-mesurable positive, 
E|Z(Y E[X |B])] = E[(ZY)EIX |B]] = E[ZY X]. 

Puisque Y E[X | B] est une v.a. B-mesurable positive, cette égalité suffit pour conclure que 

YE|X|B]| = E[YX|B]. 


Dans le cas où X et YX sont intégrables, on obtient le résultat en décomposant X = 
XT-X etY =YT-Y.. 
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Proposition 11.3.2 Soient Bı et B deux sous-tribus de A telles que Bı C Bə. Alors, pour 
toute variable aléatoire X positive ou intégrable, 


ETETX |B2]1B1] = EX |81]. 


Remarque. On a aussi E[E[X |81] |82] = EX | B;] sous les mêmes hypothèses, mais cela 
est évident puisque E[X |B:] est B2-mesurable. 

Preuve. Traitons le cas où X > 0. Soit Z une v.a. B,-mesurable positive. Alors, puisque 
Z est aussi B2-mesurable, 


EIZ E[EIX | 8]|B1]) = EiZ EIX| 8] = E[ZX]. 





Cela suffit pour établir légalité annoncée. 0 


Théorème 11.3.3 Deux sous-tribus Bı et Bə sont indépendantes si et seulement si, pour 
toute v.a. X Bz-mesurable positive (ou pour toute v.a. X € L! (Q, B2, P), ou bien pour toute 
v.a. X de la forme X = 14, avec À € B2), ona 


EIX|B1] = E[X]. 


Preuve. Supposons d’abord que B; et Ba sont indépendantes. Alors, si X est une v.a. 
B>-mesurable positive, on a pour toute v.a. Z B;-mesurable positive, 


E[ZX] = E[Z|EIX] = E[Z E[X]|, 


et donc la v.a. constante E[X] satisfait la propriété caractéristique de l’espérance condition- 
nelle E[X |B;]. Dans le cas où X est intégrable, il suffit d'utiliser la linéarité de l’espérance 
conditionnelle. 

Supposons inversement que 


VA €B, E(14|6ı] = Efla] = P(A). 
Alors, pour tout B € Bi, 


P(ANB) = Ella] = E|E[14|B:] 15] = E[P(A)15] = P(A)P(B) 











ce qui montre que les tribus B; et B2 sont indépendantes. 





Remarque. Soient X et Y deux v.a. réelles. Puisque les v.a. mesurables par rapport 
à la tribu o(X) sont les fonctions de X, le théorème précédent montre que X et Y sont 
indépendantes si et seulement si 


E(X) |Y] = ER(X)] 


pour toute fonction borélienne h telle que E[|A(X)|| < œ (rappelons que Efh(X) | Y] = 
E|h(X)|o(Y)]). Si X est intégrable on a donc en particulier 


EIX|Y] = E[X]. 
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Cependant cette dernière propriété seule ne suffit pas pour donner l’indépendance de X et 
Y. Pour s’en convaincre, il suffit de traiter le cas où X suit une loi W(0,1), et Y = |X]. 
Alors, toute v.a. Z o(Y )-mesurable bornée s'écrit Z = g(Y), avec une fonction g bornée, et 
donc 


E(ZX] = Ey(|X|)X] = -= 1 “ayen D en 


ce qui montre que E[X |Y] = 0 = E[X |, alors que X et Y ne sont bien sûr pas indépendantes. 
Nous énonçons maintenant un autre théorème reliant espérance conditionnelle et indépen- 
dance, qui est très souvent utile pour les calculs explicites d'espérance conditionnelle. 


Théorème 11.3.4 Soient X et Y deux variables aléatoires à valeurs respectivement dans 
les espaces mesurables E et F. Supposons que X est indépendante de B et que Y est B- 
mesurable. Alors, pour toute fonction mesurable g : E x F — R+, 





EĻ(X,Y) | 8] = f ge, Y) Prz), 


où Px désigne la loi de X. Le terme de droite est la composée de la variable aléatoire Y par 
l'application ® : y — f g(x,y) Px(dx) (® est mesurable grâce au théorème de Fubini). 


Remarque. De manière informelle on peut expliquer le théorème de la manière suivante. 
Si on conditionne par rapport à la sous-tribu B, la v.a. Y, qui est B-mesurable, se comporte 
comme une constante et comme par ailleurs la connaissance de B ne donne aucune infor- 
mation sur X la meilleure approximation de g(X,Y ) est obtenue en intégrant g(-, Y) par 
rapport à la loi de X. 


Preuve. Il suffit de montrer que pour toute v.a. Z B-mesurable positive, 


Efg(X,Y)Z] = E[d(Y)Z|. 





Notons P{x v,2) la loi du triplet (X, Y, Z), qui est une mesure de probabilité sur Ex F x R4. 
Comme X est indépendante de (Y, Z), on a 


Pix, = Px 8 F2) 


et donc, en utilisant le théorème de Fubini, 


Efg(X,Y)Z] = Joe Pvz ldedyds) 


1 g(x, y)z Px(dx)Py,z)(dydz) 


= r 2( | 9E Px(r)) Ponldvdz) 


| . 2®(y) Py,z(dydz) 
= E[d(Y)Z] 





ce qui était le résultat recherché. 0O 
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11.4 Calculs d’espérance conditionnelle 


11.4.1 Conditionnement discret 


Soit Y une v.a. à valeurs dans un espace dénombrable E, et soit X € LI(Q, A, P). Alors on 
a déjà vu que 

E[X|Y] = (Y) 
où 

ply) = a =] 
(Y =y) 

pour tout y € E tel que P(Y = y) > 0 (et w(y) peut être choisie de manière arbitraire 
lorsque P(Y = y) = 0). 


11.4.2 Cas des variables à densité 








Soient X et Y deux v.a. à valeurs respectivement dans R” et dans R”. Supposons que le 
couple (X,Y) a pour densité p(x, y) : pour toute fonction borélienne f : Rx R” — R+, 














E(/(X, Y) = Hera dd 


R” xR” 


Alors la densité de Y est la fonction 
ao) = fu dr 


(en toute rigueur il faut prendre q(y) = 0 pour les valeurs de y telles que f p(x, y) dx = oo, 
qui forment un ensemble de mesure nulle; nous négligerons cependant ce point de détail dans 
les calculs qui suivent). 

Soit maintenant h : R™ — R+ une fonction mesurable. Alors on calcule E[h(X)|Y] de 
la façon suivante. Pour toute fonction g : R” —» R+ borélienne, on a 


a a any) drdy 


Î. (f. h(x) p(x, y) dx)g(u) dy 


Í (e h(x) p(z, y) dx 


q(y) 
= À | ply) gly) aly) Ltatu)>0y dy 














ETR(X)9()] 


)a() aly) Ltaw)>0} dy 





où on a posé 
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(la valeur de (y) lorsque q(y) = 0 est arbitraire : le choix de la valeur h(0) sera commode 
dans l’énoncé qui suit). Dans le calcul qui précède, on a utilisé implicitement le fait que si 
q(y) = 0 on a p(x,y) = 0 dx p.p., et donc f h(x) p(x, y) dx = 0. 

Il découle du calcul ci-dessus et de la caractérisation de l’espérance conditionnelle que 


E(X) |Y] = (Y). 


Nous réénonçons ce résultat sous une forme un peu différente. 








Proposition 11.4.1 Pour tout y € R”, soit v(y, dx) la mesure de probabilité sur R™ définie 


par 
1 n 
(y, dx) = gren dx si q(y) > 0, 
dot) si q(y) = 0. 





Alors, pour toute fonction h : R™® — R, borélienne, 





Elh(X)|Y] = f E 





On écrit souvent, de manière un peu abusive, pour tout y € R, 


1 


EUX) = 0] = f viv, de) hla) = 


[hopea 
et on dit que v(y, dx) est la loi conditionnelle de X sachant que Y = y. La fonction 


p(x, y) 


DR 


q(y) 


est appelée densité conditionnelle de X sachant que Y = y. 


Exercice. Sous les hypothèses précédentes, montrer plus généralement que, pour toute 
fonction borélienne h : R™ x R” — R+, on a 














E[R(X, Y)|Y] = I h(z, Y) v(Y, dx). 


11.4.3 Conditionnement gaussien 


Soient X, Y1, ... , Yp p +1 variables aléatoires réelles dans L?(Q, A, P). Comme cela a été vu 
dans le paragraphe 2.3 ci-dessus, l’espérance conditionnelle 


LE dut 2] 


est la projection orthogonale de X sur l’espace L?(Q,0(Y1,...,Y,), P) qui est de dimen- 
sion infinie sauf dans des cas triviaux. Cette projection orthogonale est aussi la meilleure 
approximation de X, au sens de la norme L?, par une v.a. de la forme @(Y1,...,Y). 
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Par ailleurs, nous avons aussi étudié, dans le Chapitre 8, la meilleure approximation de 
X par une fonction affine de Y:,...,Ÿ,, qui est la projection orthogonale de X sur l’espace 
vectoriel (de dimension finie) engendré par 1,Y1,...,Y,. En général cette dernière projection 
est très différente de l'espérance conditionnelle E[X |Y:,...,Y,] qui fournit une bien meilleure 
approximation de X. Nous allons cependant étudier une situation où les deux coïncident, ce 
qui a l’énorme avantage de ramener les calculs d'espérance conditionnelle à des projections 
en dimension finie. 

Nous avons vu dans le Chapitre 10 qu’une v.a. Z = (Z1, ..., Zk) à valeurs dans RE est un 
vecteur gaussien centré si toute combinaison linéaire de Z1,..., Zk est gaussienne centrée, ce 
qui équivaut encore à 








VEERE, Elexplié : Z)] = exp(-5 'EKz8). 


C’est par exemple le cas si les composantes Z,..., Z sont des v.a. gaussiennes indépendantes. 
Proposition 11.4.2 Soit (X1,..., Xm,Y1,...,Yn) un vecteur gaussien centré. Alors les 
vecteurs (X1,..., Xm) et (Y1,...,Yh) sont indépendants si et seulement si 

cov(X;, Y;) = 0; Vi € {1,... Mm}, j E€ {1,... n}. (11.4) 


Preuve. Il suffit de montrer que, sous la condition (11.4), (X1,..., Xm) est indépendant de 
(M,..., Yn) (l'inverse est toujours vrai). Or, pour E = (m, ---, m, G1,::-,6n) E R”, 





, 1 
Elexp(ié . (Xı, | sAm Yi; neeg Yn) )| = exp(-3 EK (xi, Xm Yi.. Yn )Ê) 


et, sous la condition (11.4), 


LA E e A A S DP njnkcov (Xj, Xk) + >D GG cov (Y;, Yp). 
j,k=1 


j,k=1 


Cela entraîne 
Efexpié - (X1,..., Xm, Yi, -< -, Yn))] = Elexp(i G2 mx ] E[exp(i X GY;)] 


soit encore 


~ 


Pixi, Xm Yi, Yn) (M 4 Nm i; -+ -3 Gn) = PX, Xm (M -o Nm) Pi, Yn) (i -o Cn). 


En utilisant l’injectivité de la transformée de Fourier, on a donc 


Pixi, Xm, Y1, Yn) = PX, Xm) © Pri, Yn) 





ce qui est l’indépendance recherchée. 0 


Conséquence. Soit (X:,...,X,) un vecteur gaussien centré tel que cov(X;, Xx) = 0 si 
j # k. Alors, les v.a. X1,...,X, sont indépendantes. En effet, la proposition précédente 
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entraîne d’abord que X, est indépendant de (X1,..., X,_1), puis que X,_. est indépendant 


de (X1,..., X»_2), etc., ce qui permet de conclure. 
Plus généralement, si la matrice de covariance de (X1,..., Xn) est diagonale par blocs 
de tailles respectives 41,...,49 (avec à + --: +i, = n) les sous-vecteurs (X:,..., Xi), 


(Xi, A Ass) sizar ÉCART i+ FLE nn) sont indépendants. 
Théorème 11.4.3 Soit (Y1,...,Y,,X) un vecteur gaussien centré. Alors, E|X | Y1, ..., Yn] 


coincide avec la projection orthogonale de X sur l’espace vectoriel engendré par Y1,...,Yn. 
Il existe donc des réels À1,...,X, tels que 


ER AD RON 
j=1 











De plus, pour toute fonction borélienne h : R — R+, 


ni eos Yn] = | h(x) q5? Yj, (2) dz, 
R 





et pour tout m € R, 


m o2 (£) = —— exp(-—-—— 
mon(t) = = epl a) 


est la densité de la loi N (m, 0°). 


Remarque. Le cas ø = 0 se produit si et seulement si X = DT A;Y;, et alors X est 


mesurable par rapport à o(Y1,...,Y,), de sorte que la deuxième formule du théorème doit 
s’interpréter comme E|[A(X)|Y1,..-, Yn] = A(X). Nous écartons ce cas trivial dans la preuve 
qui suit. 


Preuve. Soit X = ne A;Y; la projection orthogonale de X sur l’espace vectoriel engendré 
par Y1,...,Ÿn. Alors, pour tout j € {1,...,n}, 


A~ aia, 


cov(X — X,Y;) = E[(X — X)ÿ,] = 0 


par définition de la projection orthogonale. Puisque le vecteur (Y1, ..., Yn, X — X ) est 
gaussien centré (toute combinaison linéaire de ses composantes est une combinaison linéaire 
de Y1,...,Yh, X), la proposition précédente montre que X-X est indépendant de Y1,..., Yn- 
Donc, 

aea ER Aa E PAS E E S EA 


On a utilisé le fait que X est mesurable par rapport à o(Y1,..., Yn), puis l'indépendance de 
de X — X et de (Y1,..., Yn) qui entraîne E[X — X |Y1,..., Yn] = E[X — X] = 0. 
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Pour la dernière assertion, notons Z = X — X , de sorte que Z est indépendante de 
(Yi, -.., Yn) et suit la loi N (0, 0°) (Z est gaussienne centrée et par définition o? = E[7?|). 
On utilise alors le théorème 11.3.4 qui montre que 


PM raa TE ERS P E E pÈ ELIRA. 


En écrivant Pz(dz) = qo,2(2)dz et en faisant un changement de variables évident, on aboutit 
à la formule de l'énoncé. 0O 


11.5 Probabilités de transition et lois conditionnelles 


Les calculs précédents d’espérance conditionnelle peuvent être réénoncés de manière plus 
agréable à l’aide de la notion de probabilité de transition. 


Définition 11.5.1 Soient (E,€) et (F,F) deux espaces mesurables. On appelle probabilité 
de transition (ou parfois noyau de transition) de E dans F une application 


v:ExF— [0,1] 
qui vérifie les deux propriétés suivantes : 
(i) pour tout x E€ E, v(x,-) est une mesure de probabilité sur (F, F); 


(ii) pour tout AE F, l’application x — v(x, A) est E-mesurable. 


De manière intuitive, à chaque fois que l’on fixe un point x du premier espace E, la 
mesure de probabilité v(x,-) donne le moyen de choisir de manière aléatoire un point y du 
deuxième espace F. Dans la théorie des chaînes de Markov, sur laquelle nous reviendrons, 
on étudie l’évolution au cours du temps d’un phénomène aléatoire dans lequel l’état y à 
l'instant n + 1 dépend de l’état x à l'instant n, et d’autres paramètres aléatoires non connus 
à l'instant n : la loi de l’état à l’instant n + 1 connaissant l’état à l'instant n est alors fournie 
par une probabilité de transition (x, dy). 





Exemple. Soit À une mesure positive o-finie sur (F, F), et soit f : E x F — R, une 
application mesurable telle que 


[ren x) =1, Yr € E. 


Alors 
v(z, A) = | f(e, y) X(dy) 


définit une probabilité de transition de Æ dans F. La propriété (ii) de la définition découle 
en particulier du théorème de Fubini. 
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Proposition 11.5.1 (i) Si h est une fonction mesurable positive (ou bornée) sur (F, F), 
alors 


pa) = fuledh), x €E 


est une fonction mesurable positive (ou bornée) sur E. 
(ii) Si À est une mesure de probabilité sur (E, E), alors 


HA) = f Naa) A). AEF 


est une mesure de probabilité sur (F, F). 


La vérification de ces propriétés est facile. Dans (i), on suppose d’abord h étagée, puis 
on utilise un passage à la limite croissant. 

Nous en venons maintenant au lien entre la notion de probabilité de transition et l'espérance 
conditionnelle. 


Définition 11.5.2 Soient X et Y deux variables aléatoires à valeurs respectivement dans 
(E,€) et dans (F,F). On appelle loi conditionnelle de Y sachant X toute probabilité de 
transition v de E dans F telle que, pour toute fonction h mesurable positive sur (F, F), on 
ait 

EWY)IX] = f X, du) hlo). 
Remarque. La v.a. fv(X,dy)h(y) est obtenue en composant X et l’application x — 


f v(x, dy) h(y), qui est mesurable d’après la proposition précédente. C’est donc bien une 
fonction de X, comme doit l'être l'espérance conditionnelle E[h(Y)|X]. 


Par définition, si v est une loi conditionnelle de Y sachant X, on a pour tout A E€ F, 
P(Y € A| X) =v(X, A), ps. 
Il est tentant de remplacer cette égalité de variables aléatoires par légalité de nombres réels 
P(Y € AÏX = x) =v(x, A), 


pour tout x € E. Bien qu’expliquant l'intuition de la notion de loi conditionnelle, cette 
dernière égalité n’a en général pas de sens (sauf si X est une v.a. discrète) puisque qu’on 
aura souvent P(X = x) = 0 pour tout x, ce qui interdit de définir P(Y € A| X = x). La 
seule formulation correcte est donc la première égalité P(Y € A| X) = v(X, A). 

Discutons maintenant l’unicité de la loi conditionnelle de Y sachant X. Si v et v’ sont 
deux lois conditionnelles, on aura, pour tout A E€ F, 


v(X, A) = P(Y € A|X)=7(X, A), ps. 
ce qui équivaut encore à dire que, pour tout À € F, 
v(x, A) = v'(x, A), Px(dx) p-s. 
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Supposons que l’espace mesurable (F, F) soit tel qu’une mesure de probabilité sur (F, F) 
soit caractérisée par ses valeurs sur une famille dénombrable d’ensembles mesurables (c’est le 
cas pour (R, B(Rĉ)), en considérant les pavés à coordonnées rationnelles). Alors on conclut 
que 











v(x,-)=v(x,-), Px(dx) ps. 


Il y a donc unicité en ce sens (et clairement on ne peut pas espérer mieux). Par abus de 
langage on parlera cependant souvent de la loi conditionnelle de Y sachant X. 
Considérons maintenant le problème de l’existence de lois conditionnelles. 


Théorème 11.5.2 Supposons que (E,€) et (F,F) soient des espaces métriques complets 
séparables munis de leur tribu borélienne. Alors il existe toujours une loi conditionnelle de 
Y sachant X. 


Nous ne démontrerons pas ce théorème qui est un résultat assez difficile de théorie de la 
mesure. Dans la suite de ce cours, nous n’aurons de toute façon pas besoin du Théorème 
11.5.2, car une construction directe permet d'éviter le recours au théorème d’existence. Pour 
illustrer cela reprenons les exemples traités dans la partie précédente (attention les rôles de 
X et Y sont intervertis). 


(1) Si X est une v.a. discrète, c’est-à-dire si Æ est dénombrable, alors on peut définir v(x, À) 
par 

v(x, A) = P(Y € A| X =x) six € F' := {a € E: P(X =a) > 0) 

v(x, A) = ĉp (A) si x é E” 


où yọ est un point fixé de F, dont le choix est arbitraire. 








(2) Supposons que X et Y sont à valeurs respectivement dans R” et dans R” et que le couple 
(X,Y) a pour densité p(x, y), (x,y) € R” x R”. La densité de X est alors 











q(x) = | | p(x, y) dy. 


La Proposition 11.4.1 montre qu’on peut définir la loi conditionnelle de Y sachant X par 


1 
væ A) = | dupes) state) >0 
q(x) JA 
v(x, A) = ĉl A) si q(x) = 0. 
(3) Supposons enfin que (X1, ..., Xn, Y) soit un vecteur gaussien centré, et notons 
>A% 
j=1 
la projection orthogonale de Y sur l’espace vectoriel engendré par X1,..., Xn. Notons aussi 


g= 21 [0 de > AX; y]. 
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Le Théorème 11.4.3 montre que la loi conditionnelle de Y sachant X = (X:,...,X,) est 


(x, -- -3 Tn; A) T Ja. ajzjo2 (Y) dy 


OÙ qm,o2 est la densité de la loi gaussienne N (m, o°). De manière légèrement abusive on dit 
que conditionnellement à (X1,...,X,), Y suit la loi N(Y 7—1 À,X 5, 0°). 
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Partie III 


Processus aléatoires 
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Chapitre 12 


Théorie des martingales 
à temps discret 


12.1 Définitions et exemples 


On se place sur un espace de probabilité (Q, F, P). Par définition un processus aléatoire est 
une suite (Xh)nen de variables aléatoires définies sur (Q, F, P). Dans ce chapitre, tous les 
processus aléatoires seront à valeurs réelles. 


Définition 12.1.1 Une filtration de (Q,F, P) est une suite croissante (Fa)nen de sous- 
tribus de F. On a donc 





Fo < CBC... CF 





On dit aussi que (Q, F, (Fa)nen, P) est un espace de probabilité filtré. 


On interprète souvent le paramètre n comme un temps. La tribu F, correspond alors à 
l'information acquise au temps n. 


Exemples. (a) Si (X,)1en est une suite quelconque de v.a. définies sur (Q, F, P), on définit 
FX comme étant la plus petite tribu rendant mesurables les v.a. X1,X2,..., Xn : 


I = o(Xo, Xis... Xn) 


Alors (FX ),en est une filtration appelée filtration canonique du processus aléatoire (X, ne. 


(b) Supposons que Q = [0,1], F est la tribu borélienne sur [0,1[, et P est la mesure de 
Lebesgue. Posons 


i=1,2,...,2"). 


Alors (Fn)nen est une filtration appelée filtration dyadique de [0, 1[. 


Définition 12.1.2 Un processus (Xn)nen est dit adapté à la filtration (Fn)nen si pour tout 
n € N, Xn est mesurable par rapport à la tribu Fn. 
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La filtration canonique est par construction la plus petite filtration qui rende le processus 
adapté. 

Dans toute la suite du chapitre (à l'exception de la partie 6), on fixe un espace de 
probabilité filtré (Q, F, (Fh)nen, P), dont le choix sera parfois précisé dans les exemples. Les 
notions qui suivent sont bien entendu relatives à cet espace. 


Définition 12.1.3 Soit (Xn)nen un processus adapté, tel que EÏ|X, [|] < œ pour tout n € N. 
On dit que le processus (Xn)nen est: 


e une martingale si, pour tout n € N, 


E[Xr4 | Fn] = X, ; 


e une surmartingale si, pour tout n € N, 


EX | Fn] < Xn; 


e une sous-martingale si, pour tout n € N, 


EX | Fa] 2 Xn. 


Une conséquence immédiate de la définition d’une martingale est la propriété apparem- 
ment plus forte : pour tous 0< n <m, 


EAE EEA (12.1) 


Cela est facile à vérifier par récurrence sur la valeur de m — n : si m = n, la propriété est 
triviale, si m = n + 1, c’est la définition, et si m — n > 2, une propriété bien connue des 
espérance conditionnelles donne 


E|Xm | Fa] = BEA | Fm1] | Fa) = ElXm-1 | Frl. 


Remarquons que (12.1) entraîne E[Xm] = E[X,] = E[Xo]. 
De même, si (X,)1en) est une surmartingale (resp. une sous-martingale), on a pour tous 
0O<n<m, 
EXnl FA] < An (resp. EUX | Fil > Ya), 


et donc E[X,] < E[X,] (resp. E[Xx] > E[Xàl). 

Il est souvent utile d'interpréter une martingale comme un jeu équitable : la variable X, 
correspond à l’avoir du joueur à l’instant n, et Fn est l'information dont dispose le joueur 
à cet instant (en particulier les résultats des jeux précédents). La propriété de martingale 
E| Xni | Fna] = Xn traduit donc le fait que la valeur moyenne de l'avoir à l'instant n +1, 
lorsqu'on connait le passé jusqu’à l'instant n, est lavoir à l’instant n (en moyenne le joueur 
ne perd ni ne gagne). De la même façon, une surmartingale correspond à un jeu défavorable. 


Il est évident que si (Xn)nen est une surmartingale, (—X, ),en est une sous-martingale. 
Pour cette raison, la plupart des résultats qui suivent et sont énoncés seulement pour des 
surmartingales ont un analogue immédiat pour des sous-martingales (ou bien inversement). 
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Exemples. (i) Si X € L!(Q, F, P) on pose 
FBX VEI: 
Alors (Xn )nen est une martingale : 
E|Xny | Fn] = E[E[X | Fasi] | Fa] = ELX | Fn] = Xn. 


Une martingale de ce type est dite fermée. 


(ii) Si (Xn)nen est une suite décroissante et adaptée de v.a. intégrables, alors (Xn)nen est 
une surmartingale : 


PiX l FI EPRA S 








(iii) Marche aléatoire sur R. Soit x € R et soit (Yn)n>1 une suite de v.a. réelles indépendantes 
et de même loi p, telle que E||Y1|]| < o0. On pose 


Xo=x et Xn=r+Y +Y+...+Y,sin>l. 





On définit aussi la filtration (F,)»en par 
Fo ={Ø, Q} et Fn=0(Yi,..., lin Al 

(c'est en fait la filtration canonique de (Xn)nen). Alors (Xn )nen est 

e une martingale si E[Y:] = 0: 

e une surmartingale si E[Y:] < 0; 

e une sous-martingale si E[Y1] > 0. 
En effet, par exemple dans le cas E]Y,] = 0, on a 

EfXru | Fn) = EX + Yara | Frl = Xn + Eau] = Xn, 


puisque par construction Ÿ,.1 est indépendant de Fn. 
Le processus (Xn)nen est appelé marche aléatoire sur R de loi de saut y, issue de x. 





(iv) Reprenons l’exemple (b) d'espace de probabilité filtré donné ci-dessus. Soit u une mesure 
finie sur [0,1], et rappelons que P = À est la mesure de Lebesgue sur [0, 1[. Pour tout entier 
n € N, posons 

_ du 

TAXE, 

qui désigne la dérivée de Radon-Nikodym de u par rapport à À, lorsque u et À sont vues 
comme des mesures sur la tribu F, (sur la tribu F,, toutes les mesures sont absolument 
continues par rapport à À). Il est facile de vérifier que 


Ín 
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Alors (fh)nen est une martingale : si A € Fan, 


Biais J TE do = (4) = À 1a(w) falu) dw = Ellaf) 


ce qui suffit pour obtenir fn = E|fn41 | Fal. 
Dans le cas particulier où u est absolument continue par rapport à À (sur F), la martingale 
(fn)nen est du type considéré en (i) ci-dessus : on vérifie aisément que 


où f est la dérivée de Radon-Nikodym de u par rapport à À. 


Deux transformations de martingales. 











Proposition 12.1.1 Soit y : R — R, une fonction convexe, et soit (Xh)nen un processus 
adapté, tel que Elp(X,)] < oo pour tout n € N. 


(i) Si (Xn) est une martingale, (p(Xn)) est une sous-martingale. 


(ii) Si (Xn) est une sous-martingale et si est croissante, (p(Xn)) est une sous-martingale. 


En particulier, si X, est une martingale, [X,| est une sous-martingale (ainsi que X? si 
E[X®?] < œ pour tout n) et si X, est une sous-martingale, X 7 est encore une sous-martingale. 


Preuve. (i) D’après l'inégalité de Jensen pour les espérances conditionnelles, 
Efo(Xiu) | Fa] 2 PE | Fil) = Aa). 


(ii) De même, puisque X„ < E[X 11 | Fn] et p est croissante, 





Elo(Xn4) | Fa] 2 6 (Eu | Fal) > (Xn). 


Définition 12.1.4 Une famille (H,),>1 de v.a. réelles est dite prévisible si, pour tout n > 1, 
H, est bornée et F,_,-mesurable. 


Proposition 12.1.2 Soit (Xn)nen un processus adapté, et (Hn)n>1 une famille prévisible. 
On pose (H - X)o = 0 et pour tout entier n > 1, 


(H i Xn = Hi(X = Xo) -+ H(X2 — X:) + Lee | Ha(Xn a Xn-1)- 
Alors, 
(i) Si (Xn) est une martingale, ((H - X)n) est aussi une martingale. 


(ii) Si (Xn) est une surmartingale (resp. une sous-martingale), et si H, > 0 pour tout 
n > 1, ((H - X)n) est une surmartingale (resp. une sous-martingale). 
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Preuve. (i) Puisque les v.a. H, sont bornées, il est facile de vérifier que les v.a. (H - X)n 
sont intégrables. De plus le processus ((4:X),) est adapté par construction. Il suffit ensuite 
de vérifier que, pour tout n € N, 


E|(H - X)n+ı = (H -X)n | va] = 0. 
Or (H-X nu — (H - X)n = Hyu(Xuu — Xn) et puisque H,,1 est F,-mesurable, on a 
EH (Xnr Re Xn) | Fal = Hpn+1 E| Xn — Xn | Fal = 0. 











La preuve de (ii) est analogue. 





Si on interprète (dans le cas d’une martingale) X, comme l’avoir du joueur à l’instant n, 
la différence X,11 — Xn s’interprète comme le gain réalisé entre les instants n et n+ 1. On 
peut imaginer que le joueur à l'instant n modifie sa mise en la multipliant par H,,1 (qui doit 
être F,-mesurable). Le jeu reste équitable, mais le nouveau gain réalisé entre les instants 
n et n+ 1 est Hn+1ı(Xn+1 — Xn). Ceci fournit une explication intuitive de la définition de 
CHAT. 


12.2 Temps d'arrêt 


Définition 12.2.1 Une v.a. T : Q — N = NU {+00} est appelée temps d'arrêt (de la 
filtration (Fn)) si pour tout entier n € N, on a 


[T =n} E Fa. 


Il est très facile de voir que cela est équivalent à imposer que pour tout n € N on a 
{T < n} € Fa. Dans la suite nous utiliserons indifféremment l’une ou l’autre définition. 
Il est important de noter que la valeur +c est autorisée. En écrivant 


P= oT Sn 


nEN 


on voit que {T = +oo} € Fæ, où 


= N me UA): 


nEN nEN 


En revenant à l’interprétation en termes de jeu, les temps d’arrêt sont les instants 
aléatoires auxquels on peut décider de s’arrêter : le point-clé est que pour décider de s’arrêter 
à l’instant n, on n’a à sa disposition que l’information acquise à cet instant, c’est-à-dire les 
événements de F,. Pour prendre une image tirée de la Bourse, il est impossible de décider 
de vendre ses actions au moment où elles vont être à leur cours maximum de l’année (cela 
demanderait de connaître le futur à cet instant !). 


Exemples. (i) Si k € N, le temps constant T = k est évidemment un temps d'arrêt. 
(ii) Si (Yn)nen est un processus adapté, et si À est un borélien de R, 





Ta :=inf{n E N: Y, € A} 
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est un temps d’arrêt, appelé temps d’entrée dans A. En effet, pour tout entier n > 0, 
{Ta=n}={ÎMéÉANÉA,....Yn16AMEA; E Fn- 


Remarquons que, dans la définition de T4, on fait la convention inf Ø = +00. Cette conven- 
tion sera constamment utilisée dans la suite. 
(iii) En revanche, si on fixe N > 0 et on pose 


La:=sup{n < N:Y E€ A} (supS—0 par convention) 
LA n’est en général pas un temps d’arrêt. En effet, pour n € {1,...,N —1}, 
{La =n} = {Yn € À, Yan É A, ..., Yy É A} 
n’est a priori pas dans Fn. 


Proposition 12.2.1 (i) Si S et T sont deux temps d'arrêt, SVT et S AT sont aussi des 
temps d'arrêt. 

(ii) Si (Tk)ken est une suite de temps d'arrêt, alors inf (Tp), sup(T%), limsup(7%) et lim inf (Th) 
sont aussi des temps d'arrêt. 


Preuve. (i) On écrit {SAT < n} = {S < n}U{T <n}ket {SVT < n} = {S <n}N{T <n}. 
(ii) De même, {inf(Tp) < n} = U{T, < n} et, par exemple, 


OO OO 


{lim inf(Z) < n} = N ( LE n}). 


m=0 ` k=m 
Définition 12.2.2 Soit T un temps d'arrêt. La tribu du passé jusqu’à l'instant T est 
Fr={AEF:VneN ANT =n} E Fn}. 
On vérifie aisément que Fr est une tribu et que Fr = F, si T =n. 
Proposition 12.2.2 Soient S et T deux temps d'arrêt avec S < T. Alors, Fs C Fr. 


Preuve. Soit À € Fs. Alors, pour tout n € N, 


inre anene 


k=0 


Proposition 12.2.3 Soit (Yna)nen un processus adapté, et soit T un temps d'arrêt. Alors la 
v.a. Lir<o}Yr définie par 


Lir<o}Yr(w) T { A) i — = nS 


est Fr-mesurable. 
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Preuve. Soit B un borélien de R. Alors, pour tout n € N, 
{L{réoo}Yr € B} N {T = n} = {Yn € B} N {T = n} € Fro 


ce qui montre que {1{T<%}Yr € B} € Fr. Si 0 € B, il suffit d'écrire {1grcsYr € B} = 
{L{réoo}Yr € BE 

Lorsque le temps d’arrêt T est fini p.s. on écrira bien sûr simplement Yr au lieu de 
Lircw}Yr. En particulier, si T est un temps d’arrêt quelconque, n A T est aussi un temps 
d'arrêt (lemme 12.2.1) et on déduit de la proposition que Y,nr est Fhnr-mesurable donc 
aussi F,-mesurable d’après la proposition 12.2.2. 














Théorème 12.2.4 (Théorème d’arrêt) Soit (X,),en une martingale (resp. une surmartin- 
gale) et soit T un temps d'arrêt. Alors (XnaT)nen est aussi une martingale (resp. une 
surmartingale). En particulier, si le temps d'arrêt T est borné, on a Xr € L}, et 


E[Xr] = E[Xo] (resp. E[Xr] < E[X0]). 
Preuve. Pour tout n > 1, posons 
Hn = liT>n} 5 1 > liren} 
Alors la famille (Hn)n>1 est prévisible. Puisque 
Xnar = Xo+ (H-X)n 
la première partie du théorème découle de la proposition 12.1.2. Ensuite, si le temps d’arrêt 


est borné par N, on a E[Xr] = E[Xwar] = ElXo] (resp. < E[X5] dans le cas d’une 
surmartingale). 














L'hypothèse que T est borné est nécessaire comme le montre l’exemple simple suivant. 
Considérons la marche aléatoire X„ = Yı +- - -+ Yn issue de 0 et de loi de saut P(Y1 = 1) = 
P(Y = —1) = 1/2 (c'est ce qu’on appelle la marche aléatoire simple sur Z, ou encore pile ou 
face). Alors il découle d’un exemple précédent que (X,),en est une martingale. Cependant, 
si on pose 

T =inf{n > 0: X = 1} 


ona T < œ p.s. (cf Proposition 10.2.2 — une autre démonstration sera donnée dans la partie 
suivante) mais 
1 = E|Xr] # E|Xo] = 0. 


Bien sûr le temps d’arrêt T n’est pas borné, et il n’y a pas de contradiction avec le théorème. 





12.3 Convergence presque sûre des martingales 


Nous allons maintenant étudier la convergence presque sûre d’une martingale ou d’une sous- 
martingale quand n — œœ. Considérons d’abord une suite numérique à = (a, )1en. Pour 
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tous les réels a < b on introduit deux suites de temps S4(a) et T,(a) appartenant à N, qui 
sont définies de la manière suivante : on pose 


Sila) = inf{n > 0 : a, <a} 
Tila) = inf{n > Sila): an > b} 
puis, par récurrence, 


Syria) = inf{fn > Tila) : an < a} 
Tia) = inf{n > Skila) : an > b}. 





Bien entendu, on utilise toujours la convention inf Ø = +00 dans ces définitions. On pose 
ensuite pour tout entier n, 


N, (la, b], à) = ` LiT, a)n} 
k=1 


Næ (la, b], a) z >» LiT, (a)<co}- 
k=1 


La quantité N,([a, b], a) est le nombre de montées effectuées le long de l'intervalle [a, b] par 
la suite (&n)nen. Nous utiliserons le lemme simple d’analyse suivant. 


Lemme 12.3.1 La suite (ay)nen converge dans R ssi pour tout choix des rationnels a et b 
tels que a < b, on a Nælla, b], a) < oo. 





Considérons maintenant un processus adapté (Xn)nen. Alors les quantités S4(X), Tk(X) 
deviennent des v.a. à valeurs dans N, et plus précisément il est facile de vérifier que ce sont 
des temps d’arrêt. En effet, on a par exemple 


{TL(X) <n} = © ne E E E 


OLMIKNIL E LMp LINKIN 
ce qui montre que {7,(X) < n} € Fa. 


Il en découle en particulier que M, (fa, b], X) est F,-mesurable. 


Lemme 12.3.2 (Inégalité des nombres de montées de Doob) Supposons que (X, )nen 
est une sous-martingale. Alors, pour tous les réels a < b et pour tout n € N, 


(b— a) E[N, (la, b], X)] < E[(X, — a)* — (Xo — a)°]. 


Preuve. On pose Y, = (X, — a)*. D’après la proposition 12.1.1, (Y,),en est encore une 
sous-martingale. 

Pour alléger les notations posons N, = N,{({a,bl, X), et écrivons Sp, Tę au lieu de 
Sk(X), Tk(X). Définissons alors une famille prévisible (H,),:>1 en posant 


=y Lgencn} 1 
k=1 
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(observer que l'événement {Sp < n < Tr} = {Sk < n —1}\{7% < n — 1} est dans F,_1, 
parce que Sp et Tẹ sont des temps d’arrêt). Alors, on vérifie facilement que 


Nn Nn 
(H j Y)n = N Yn E Ysp) ag ls ete = Vs > N Yn = Ys,) > N,(b = a). 
k=1 k=1 


La première inégalité est vraie parce que Ysy„,ı = 0 sur l’ensemble {SN 41 < ©}, et Y, > 0. 
On a donc en particulier 
E[(H YA] > (b — a) E[N]. 


Par ailleurs, si K, = 1 — Hn, (Kn)nen est une famille prévisible positive, et la proposition 
12.1.2 montre que (K - Y) est une sous-martingale, d’où E[(K -Y )n] > EI(K.Y)o] = 0. 
On observe ensuite que 


(K-Yhh+(HYhh = (K+H)-Yhh=Y - Yo, 
et donc 


(—a)E[N,J < EH - Y)n] < EIK Ya + (H - Y)n] = EM - Yol 











ce qui est l'inégalité du lemme. 





Théorème 12.3.3 Soit (Xn)nen une sous-martingale telle que 


sup E[(Xn)"] < co. (12.2) 


nEN 


Alors la suite Xn converge p.s. quand n — œ. De plus sa limite Xæ vérifie E|| X|] < œ. 


Remarque. En écrivant E[X,] = E[(X,)*] — E[(X,) |], et en rappelant qu'une sous- 
martingale vérifie E[X,] > E|Xo], on voit que, pour tout k > 0, 


E[(X)7] < (sup E(Xn)*]) — E[Xo] 


nEN 


L'hypothèse (12.2) est donc équivalente à imposer que 


sup E[|X Al] < 00 
nEN 


c’est-à-dire que la suite (Xn) est bornée dans L+. 
Preuve. Soient a,b € Q tels que a < b. D’après le lemme 12.3.2, on a pour tout n > 1, 


(b— a) E[N, (la, 0], X)] < E[(Xn — a)"] < la| + EUX) < la| + sup E[(Xx)"]. 


En faisant tendre vers +00, et en utilisant (12.2), on trouve 
(b = a) E[N (|a, b], X)| < 00 
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et donc N,(la,b], X) < œo p.s. Quitte à écarter une réunion dénombrable d’ensembles de 
probabilité nulle, on obtient ainsi que p.s., pour tous les rationnels a < b, Ni (fa, b], X) < oo. 


D’après le lemme 12.3.1, cela suffit pour affirmer que p.s. la suite Xn converge dans R. 
Ensuite, à l’aide du lemme de Fatou, et de la remarque suivant l’énoncé, on a 





E[IX|] < liminf E[|X,]] < sup E[[X,[] < oo 
TROS, neN 


et en particulier |X| < œœ p.s. O 


Corollaire 12.3.4 Soit (Xn)nen une surmartingale positive. Alors X, converge p.s. Sa 
limite X, est dans L! et vérifie Xn > E[X, | Fa] pour tout n € N. 


Preuve. On applique le théorème 12.3.3 à X7 = —X,, en remarquant que l'hypothèse 
(12.2) est alors trivialement vérifiée. La dernière assertion découle du lemme de Fatou pour 
les espérances conditionnelles : 

Xn > liminf E|[Xm | Fn] 2 Efliminf Xm | Fa] = ElX æ | Fn]. 
Exemples. (1) Soit Ÿ, = 1 + Zı + -+--+ Zn une marche aléatoire simple (pile ou face) issue 
de 1. On a vu que (Yn)nen est une martingale par rapport à sa filtration canonique. Posons 


ensuite 
T = inf{n > 0 : = 0}. 


Alors T est un temps d’arrêt. Du théorème 12.2.4 on déduit que X, = Ymar est une 
martingale positive, à laquelle on peut appliquer le corollaire. Donc X, converge p.s. vers 
X tel que Xæ < co. Puisque sur l’ensemble {T = o0} on a |Xn+1 — Xn] = Yn — Yal = 1 
pour tout n, cela n’est possible que si T < © p.s. Modulo un argument de symétrie 
évident, cela démontre la propriété qui avait été utilisée dans le dernier exemple de la partie 
précédente. 

Dans ce cas on a XX = 0 p.s. et donc l'inégalité X, > E[X, | Fna] = 0 n’est pas une 
égalité, bien que la suite (X,) soit une martingale. 

Cet exemple montre aussi que la convergence du corollaire (ou du théorème précédent) 
n’a pas forcément lieu dans L! : ici E[X,] = 1 pour tout n alors que E[XX] = 0. 


(2) Processus de branchement. Soit u une mesure de probabilité sur N, telle que 
m= ` k u(k) < œ. 
k=1 


On exclut les cas particuliers où u est la mesure de Dirac en 1 ou la mesure de Dirac en 0. 
Soit ensuite (£n, j)n jen une famille de v.a. indépendantes de loi u. On fixe aussi un entier 
L > 1 et on définit par récurrence une suite (X,) de v.a. à valeurs dans N en posant 


Xo =£ 


Xn 
Xn+1 = T š Vn € N. 
j=1 
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La quantité X, s’interprète comme le nombre d'individus dans une population à la génération 
n, sachant que le nombre d'enfants de chaque individu suit la loi u (et les nombres d'enfants 
des différents individus sont des v.a. indépendantes). 

Alors la suite m "X, est une martingale relativement à la filtration 


Fo = {3,0} 
Pa sols RERTEN), sin>l. 


En effet, il est facile de voir que le processus (X,) est adapté (la définition de X» ne fait 
intervenir que les £p; pour k < n). Ensuite, pour tout n > 0, 


E| Xn | Pal = ED L{j<x,} En, | Fa] = Lex} EEn | Fa] = M Xn 


j=1 j=1 
puisque £n; est indépendante de Fn, et donc E[£, ; | Fa] = Efén,;] = m. En conséquence, 
Efm Xpy | Fa] = mx, 


Cela montre d’abord que les v.a. X, sont dans L! (une récurrence immédiate montre que 
E[X,] = Lm”) et ensuite que la suite m~” X, est une martingale positive. 

Distinguons maintenant trois cas : 

e m < 1. Puisque X, est à valeurs entières, la convergence de m~” Xn vers une quantité 
finie n’est possible que si X, = 0 pour tout n assez grand (extinction presque sûre de la 
population). 

e m = 1. Dans ce cas X, est une martingale positive et on a la même conclusion 
(extinction presque sûre) une fois que l’on a vérifié que 


P(N > 1,p > 1:Yn > N, Xn =p)=0. 





Cette dernière assertion est obtenue comme une conséquence facile du lemme de Borel- 
Cantelli (on utilise le fait que u(1) < 1). 
em>l. Ona 
EE Ce A (12.3) 


et sur l’ensemble {Z > 0} on voit que X, est de l’ordre de m” quand n est grand. On voudrait 
alors vérifier que P(Z > 0) > 0 (et aussi que Z > 0 p.s. sur l’ensemble {liminf X, > 0} de 
non-extinction). Remarquons que si la convergence (12.3) a lieu dans L+ on a P(Z > 0) > O, 
puisque dans ce cas E[Z] = limm "E[X,] = {. On peut montrer (théorème de Kesten- 
Stygum) que la convergence (12.3) a lieu dans L! ssi 


De k log(k) u(k) < œ 


et qu’alors Z > 0 p.s. sur l’ensemble de non-extinction. Nous verrons un résultat un peu 
plus faible dans la partie 4 ci-dessous. 

Si (Xn )nen est une martingale bornée dans L+, on peut lui appliquer le théorème 12.3.3 
et obtenir que X, converge p.s. vers Xæ. Les exemples précédents montrent qu’il n’y a pas 
nécessairement convergence dans L!. Le théorème suivant caractérise les martingales pour 
lesquelles c’est le cas. 
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Théorème 12.3.5 Soit (X,),en une martingale. Les deux conditions suivantes sont équiva- 
lentes: 


(i) Xn converge vers Xœ p.s. et dans Lt. 
(ii) I existe une v.a. Z € L'(Q,F, P) telle que X, = E[Z | F,] pour tout n € N. 


De plus, si ces conditions sont satisfaites, on peut prendre Z = Xœ dans (ii). On dit alors 
que la martingale (Xn)nen est fermée. 


Preuve. Supposons d’abord (i). En écrivant 
Xn = E|[Xm | Fal, Ym >n 


et en utilisant le fait que l'application Y — E[Y | Fa] est une contraction de L} (i.e. 
E[EIY | Fali] < E[|Y|]), on trouve en faisant tendre m vers oo que X, = E[X, | Fal. 

Inversement, supposons (ii). La suite (X„)nen est alors bornée dans L! et donc converge 
p.s. d’après le théorème 12.3.3. Pour obtenir la convergence L!, traitons d’abord le cas où 
la v.a. Z est bornée par une constante K < ©. Alors, toutes les v.a. X, sont aussi bornées 
par K, et le théorème de convergence dominée donne le résultat voulu. Dans le cas général, 
fixons € > 0, et choisissons M > 0 assez grand pour que 


E[|Z — Z tizm] < €. 
Alors, pour tout n, 
E||Xn — EZ tizim | Fall] = EIEL — Z tizim | Fall] < €. 


D’après le cas borné, la martingale E[Z 14z<m | F,] converge dans L!. Donc on peut 
choisir no assez grand pour que, pour tous m,n > no, 


ETE(Z zen | Fm] — E[Z Luisa | Fall] < €. 
En combinant ceci avec la majoration précédente, on trouve que, pour tous m,n > no, 


a AEE E 











Comme e était arbitraire, la suite (X,) est de Cauchy dans L!. 





Corollaire 12.3.6 Soit Z € L'(Q,F,P). La martingale Xn = E|Z | Fa] converge p.s. et 
dans L! vers Xæ = E|Z | Faol, où Fæ = \/ Fa. 

n=1 
Preuve. Compte-tenu du théorème précédent, il reste à montrer que XX = E[Z | Fil]. 


Remarquons d’abord que X» est F,-mesurable puisque les v.a. Xn, le sont. Ensuite, pour 
toutneNetAEF,,ona 


BF EX TE EUX LA 
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Un argument simple de classe monotone (cf Théorème 1.4.1) montre que légalité E[Z 14] = 


E[X% 14], vraie pour À € U Fa, reste vraie pour À € o( © A) = F~. Le résultat 

n=1 = 
recherché découle ensuite de la propriété caractéristique de l’espérance conditionnelle. O 
Exemple. Reprenons l’exemple (iv) de la partie 1 : Q = [0, 1|, F est la tribu borélienne sur 
[0, 1[, et P = À est la mesure de Lebesgue. On considère la filtration dyadique 


a 
Fa = o([- U 





Li = 1,2,...,27). 


Soit u une mesure finie sur [0,1{, et pour tout entier n € N, 


d 2 ee 
fn(w) = =: (w) = > MUNIE D Li(i-1)2-r 52-n[(w). 


On a déjà remarqué que (fn)nen est une martingale (positive), et on a donc (Corollaire 
12.3.4) 


avec f fædà < œ. De plus fn > Effo | Fn], ce qui montre que, pour tout A € F,, 


MA)= f ftad > [EU | Flad f Sotada 


En utilisant la densité dans L! des fonctions continues à support compact (cf Théorème 
4.3.1), on vérifie aisément que l’espace des combinaisons linéaires à coefficients positifs de 
fonctions indicatrices d’intervalles dyadiques est dense dans l’espace Li ([0, 1[, y) des fonc- 
tions +-intégrables positives, pour toute mesure finie y sur [0, 1[. On déduit alors de l'inégalité 
précédente que, pour toute fonction g mesurable positive bornée sur [0, 1[, on a 


foiz f otsa 


Il en découle que v = u — fæ À est une mesure positive sur [0, 1[. 
Montrons que v est étrangère à À. Pour tout n > 0, posons 


dv 


hn = dr, =Æ fn — Eļ| fæ | Fn: 


Dans cet exemple on a Fæ = F et donc le corollaire 12.3.6 montre que E[ fo | Fn] — fo 
p.s. En conséquence hn — 0 p.s. et donc 


NE € [0, 1f: lim sup he o}) =0. (12.4) 


D'autre part, pour tout € > 0, 
v({x € [O, 1f: hlz) < €}) = E dà <€, 
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ce qui entraîne 


v({x € [0, 1|: limsuph,(x) < e}) < v( Ü a {hn < e}) < &. 


PRR N=1n=N 
On obtient ainsi 


v(fa € [0, 1|: lim sup h,(x) = 0}) =0 


n— o0 


et en comparant avec (12.4) on voit que À et v sont portées par des boréliens disjoints. 

Finalement l'écriture u = fæ: À + v est la décomposition de Lebesgue de la mesure y 
comme somme d’une mesure absolument continue et d’une mesure étrangère à la mesure de 
Lebesgue. De plus, u est absolument continue par rapport à À ssi v = 0 ce qui équivaut à 
dire que la martingale (f,) est fermée. 


12.4 La convergence dans L’ pour p> 1 


Notre but est maintenant d'étudier sous quelles conditions une martingale (X,) converge 
dans L? lorsque p > 1. Cela nous amènera à obtenir des estimations importantes pour la 
probabilité de grandes valeurs du supremum suppen Xn- 


Lemme 12.4.1 Soit (Xn)nen une sous-martingale, et soient S et T deux temps d'arrêt 
bornés tels que S < T. Alors 
E|Xs] < E[Xr]. 


Remarque. Le cas S = 0 a déjà été vu dans le théorème 12.2.4. 
Preuve. On sait déjà que Xs et Xr sont dans L!. On définit ensuite une famille prévisible 
en posant, pour tout n > 1, 


Hn = L{s<ner} = L{s<n-1} — liren}. 
Alors, si N est un entier choisi pour que S <T < N, ona 
(H -X)n = Xr- Xs 
et E[(H.X )x] > 0 puisque H.X est une sous-martingale (théorème 12.1.2). oO 


Théorème 12.4.2 (Inégalité maximale de Doob) Soit (X,)hen une sous-martingale. Alors, 
pour tout a > 0 et tout n € N, 


aP( sup X; > a) Š E|Xn bise E| X7]. 


O<k<n 
Preuve. Introduisons le temps d’arrêt 
T = inf{n > 0: Xn 2 a}. 
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Alors, si 
A= { sup X; > a} 


O<k<n 


on a A = {T < n}. Par ailleurs, en appliquant le lemme précédent aux temps d’arrêt T An 
et n, on à 


et d’autre part, 
XTan Zala + Xn lac. 


En combinant ces deux inégalités, on trouve 
E[X,] > aP(A) + EÏX% 14e] 
d’où la première inégalité du théorème. La seconde est immédiate. 0 


Proposition 12.4.3 Soit p > 1 et soit (Xn)nen une sous-martingale positive. Posons 


Alors, pour tout n > 0, 





En conséquence, si (Yh)nen est une martingale et si 





Y, = sup |[Y] 
O<k<n 
on a pour tout n > 0 : 
* D 
BIA )7] < Ge EU PT. 


Preuve. La deuxième partie de la proposition découle de la première appliquée à la sous- 
martingale Xn = |Y,|. Pour la première partie, on peut supposer E[(X,)?] < co, car sinon il 
n’y à rien à montrer. Alors, l'inégalité de Jensen pour les espérances conditionelles montre 
que, pour tout 0< k <n, on a 


EICX)T < ELERX, APTE EE) | Fal] = EXT (12.5) 


On a donc aussi E[(X,)?] < oo. 
D’après le théorème 12.4.2, on a pour tout a > 0 
P(X, > a) < EX {gl 


on multiplie chaque membre de cette inégalité par a”? et on intègre par rapport à la mesure 
de Lebesgue da sur ]0,co[. A gauche, il vient 


1 d-IP(X, > a) da = ef” a? \da) = = BRA 
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en utilisant le théorème de Fubini. De même, à droite on a 


o0 Xn 
f EX, Lg, >a}lda = E[x, | a”=da] 


1 2 
= —— E|X, X 
HE 
1 1 p-1 
< ——El(X,)P}\rE[(X,)?) ? 
< HEXER] 
d’après l'inégalité de Hölder. Il vient donc 
1 S 1 1 z p= 
= E(Xn)] < EX) EN (Xn) ? 


p Di 


d’où l'inégalité de la première partie de la proposition (on utilise le fait que E[(X, }?] < co). 














Si (Xh)nen est un processus aléatoire, on note 


X% = SUP | Xa]. 
nEN 


Théorème 12.4.4 Soit (X,),en une martingale. Supposons qu'il existe p > 1 tel que 


sup E[|X,[?] < oo. 
neN 


Alors, Xn converge p.s. et dans LP vers une v.a. Xæ telle que 


E[X|?] = sup E[|Xn|”] 
neN 
et on «a 
P 
— 1 





EXS) ] CP Pll]. 


Preuve. La martingale (X„) étant bornée dans L!, on sait déjà que X, converge p.s. vers 
Xə. De plus, la proposition 12.4.3 montre que, pour tout n € N, 





E[(X:)1 < (1) sup EXT. 
P— 1" keN 
En passant à la limite croissante qund n Î oo, on a 


BXL] < (ŽA sup EUIXX" < o0 


et donc Xž € LP. Puisque toutes les v.a. |X„| sont dominées par X%, le théorème de 
convergence dominée montre que la suite X, converge dans LP vers Xæ. Enfin, puisque la 
suite E[|X,|?] est croissante (cf (12.5)) on a 


ElIXSP| = El X Peso El El 


nEN 
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Exemple. Revenons au processus de branchement (X,),en introduit dans la partie précé- 
dente. On suppose que la loi de reproduction u satisfait 


m = X k u(k) €]1, œ| 


et m 
` k’ulk) < oo. 
k=0 


On pose aussi o? = var(u) = X k’°u(k)— m’. On a vu que m "X, est une martingale. 


Vérifions que cette martingale est bornée dans L2. On calcule facilement 


ElXi Fa] = E| D desert le 


j,k=1 


= ` Lij<Xn,k< Xn} E |En, jEn,k] 


j,k=1 


z ` Lex, k< Xn} (M? + o° lij) 
j,k=1 


= mê X? +0°Xn. 
On a donc 
E[X? 1] = mE[X} + lom”. 
En posant a, = m ?E[X?|], on obtient 
n—2 


ut = dla rer 


et puisque m > 1 la suite (a,) converge. En conséquence, la martingale m~” X, est bornée 
dans L?. D’après le théorème 12.4.4, cette martingale converge dans L? vers Z. En partic- 
ulier, E[Z] = E|Xo] = £ et donc P(Z > 0) > 0 (il n’est pas très difficile de voir qu’on a en 
fait Z > 0 p.s. sur l’ensemble de non-extinction de la population). 


12.5 Uniforme intégrabilité et martingales 


Définition 12.5.1 Une famille (X;);er de v.a. dans L'(Q,F,P) est dite uniformément 
intégrable (u.i. en abrégé) si 


lim (sup EX xl) = 0. 
ie 


a— +00 


Il est immédiat qu’une famille uniformément intégrable est bornée dans L! : il suffit de 
choisir a assez grand pour que 


(sup EX lxal) <1 
1€ 
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et d'écrire ensuite E[|X;|] < E[[X;l{x<ay] + EX x>a] < a + 1. La réciproque est 
fausse : une famille bornée dans L! n’est pas nécessairement u.i. 

Exemples. (1) Une famille réduite à un singleton est u.i. (c’est une conséquence sim- 
ple du théorème de convergence dominée). Plus généralement, tout sous-ensemble fini de 
L(Q,F, P) est ui. 

(2) Si Z est une v.a. positive dans L'(Q,F, P), l’ensemble des v.a. X telles que |X| < Z 
est u.i. (il suffit en effet de majorer E[|X|1{x|5a}] < E[Z1iz>a}] et d'utiliser exemple (1)). 
(3) Soit ® : R} — R, une fonction telle que x_1®(x) — + quand x — +00. Alors, 
pour tout C > 0, 








{X € L'(Q,F,P):E[®&(|X|)] < C} 


est u.i. En effet, il suffit d'écrire 


EUX Laxia] < Gus) FEUX D) 


(4) Si p > 1, tout sous-ensemble borné de LP(Q,F, P) est u.i. C’est le cas particulier de (3) 
où (x) = z’. 


Le nom “uniformément intégrable” est justifié par la proposition suivante. 


Proposition 12.5.1 Soit (Xi)icr une famille bornée dans L\. Il y a équivalence entre : 
(i) La famille (XiJicer est u.i. 


(ü) Pour tout € > 0, on peut choisir ô > 0 de façon que, pour tout événement A € F de 
probabilité P(A) < ô, on ait 


vi eI, EfXilal <e. 
Preuve. (i)=(ii) Soit € > 0. On peut choisir a > 0 assez grand tel que 


DIM 


sup P||XilLix:>a}] < 
iel 
Si on pose ô = €/(2a), alors la condition P(A) < ô entraîne que, pour tout i € J, 


E 
E[IXi|14]| < ET Xill ang xi<a}] + P||XilLix:>a}] < aP(A) + 5 <E: 


(üi)=(i) Soit C = sup;ez E||X;|]. D’après l'inégalité de Markov, pour tout a > 0, 
; C 
Viel, P(X: > a) <— 
a 


Soit € > 0 et choisissons ô pour que la propriété de (ii) soit vérifiée. Alors si a est assez 
grand pour que C/a < ô, on a 


Viel, EllXilqx/>al < € 





d’où l’uniforme intégrabilité. O 
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Corollaire 12.5.2 Soit X € L'(Q,F,P). Alors la famille des espérances conditionnelles 
EX | G] quand G décrit toutes les sous-tribus de F est u.i. 


Preuve. Soit € > 0. Puisque le singleton {X} est u.i., la proposition précédente permet de 
choisir ô > 0 tel que, pour tout À € F avec P(A) < ô on ait 





EX fa) < €. 
Ensuite, pour tout a > 0, 
1 EJIX 
P(IEIÏX | G]| > a) < = EUEIX Ig] < L i 


Donc, si a est suffisamment grand pour que E||X|]/a < ô, on a en utilisant la propriété 
caractéristique de l’espérance conditionnelle, 


ETETX | G|ltiexia] < EIEIX] | Gliga = EIX exici>a)) < € 
ce qui donne l'uniforme intégrabilité recherchée. 0 


Théorème 12.5.3 Soit (Xn)nen une suite de v.a. dans L! qui converge en probabilité vers 
Xæ. Alors il y a équivalence entre : 


(i) La suite (Xn)nen converge dans L! vers Xo. 


(ii) La suite (Xn)nen est uniformément intégrable. 


Remarque. Le théorème de convergence dominée affirme qu’une suite (X,,),_% cConvergeant 
p.s. (donc aussi en probabilité) converge dans L! à condition que |X,| < Z pour tout n, 
où Z > 0 est telle que E[Z] < œ. Cette hypothèse de domination est bien sûr plus forte 
que l'uniforme intégrabilité (cf exemple (2) ci-dessus), qui donne une condition nécessaire et 
suffisante pour la convergence dans L+. 


Preuve. (i)={(ii) D'abord, la suite (Xn)nen est bornée dans L!. Ensuite, soit € > 0. On 
peut choisir N assez grand tel que, pour tout n > N, 


ELA = XN|] < 


DIM 


Puisque l’ensemble fini {Xo, X1,..., Xn} est u.i. on peut choisir ô > 0 assez petit de façon 
que, pour tout événement À de probabilité P(A) < 6, 


Yn € {0,1...,N}, EllXall4] < =, 
Mais alors, si n > N, on a aussi 
E[Xal14] < ET Xn|1a] + EllXn — Xxl] < €. 


On a vérifié la condition (ii) de la proposition 12.5.1, d’où l’uniforme intégrabilité. 
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(üi)=(i) En utilisant la caractérisation de l’uniforme intégrabilité fournie par la proposition 
12.5.1(i), on voit immédiatement que la famille (X, — Xm )n,men est aussi u.i. Donc, sie > 0 
est fixé, on peut choisir a assez grand pour que, pour tous m,n € N, 


E[|X» — Xml lilxn-Xml>a}] < €. 
Alors, pour tous m,n € N, 


< E||Xn — Xnllyx,=xuce] + EX — Xmllgex, x ca] + EX — Xnllgx, xs] 
< 2e + a P(|Xn — Xml > €). 


La convergence en probabilité de la suite (X,) entraîne que 


P(Xn — Xml > €) < P(X — Xol > $) + PUXm — Xol > 3 


0. 
mes 
On a ainsi obtenu 

lim sup E[| Xn — Xml] < € 
et puisque € était arbitraire, cela montre que la suite (X,, ),en est de Cauchy pour la norme 
Lt. 














Remarque. En conséquence du théorème, si une suite (X,)1_ converge en probabilité et 
est bornée dans L? pour une valeur p > 1, alors elle converge dans L!, et même dans LA 
pour tout q < p (appliquer le théorème à |Xn — Xal). 


Application aux martingales. En combinant le théorème précédent avec le théorème 
12.3.5, on obtient que les trois conditions suivantes sont équivalentes pour une martingale 
(Xn)neN : 


(i) Xn converge vers Xæ p-s. et dans L!. 
(ii) La suite (Xn )nen est uniformément intégrable. 


(ii) La martingale est fermée : il existe une v.a. Z € L'(Q,F, P) telle que X, = E[Z | Fal 
pour tout n € N. 


Remarquons que (ii) découle aussi de (iii) via le corollaire 12.5.2. En particulier toute 
martingale uniformément intégrable est fermée, et inversement. Rappelons que dans ce cas 
on a Xn = E[X, | F,] pour tout n. 


Théorèmes dďd’arrêt. Si (Xn)nen est un processus adapté qui converge p.s. vers Xæ, on 
définit Xr pour tout temps d’arrêt T fini ou non en posant 


Xr = ` LiT=n} Xn F LiT=%}X o. 


n=0 


Une extension facile de la proposition 12.2.3 montre que Xr est Fr-mesurable. 
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Théorème 12.5.4 Soit (X,),en une martingale uniformément intégrable. Alors, pour tout 
temps d'arrêt T fini ou non, 
Xr = E|X» | Fr), 


et en particulier E|Xr] = EÏXSx] = E|Xn] pour tout n € N. Si S et T sont deux temps 
d'arrêt tels que S <T, ona 
Xs = E|Xr | Fi. 


Remarques. (i) Une conséquence du théorème et du corollaire 12.5.2 est que la famille 
{Xr,T temps d’arrêt} est u.i. 

(ii) Pour une martingale quelconque (Xņn)nen, on peut appliquer le théorème, pour tout 
entier N > 0 fixé, à la martingale arrêtée (Xpan )nen qui est u.i. On retrouve ainsi certains 
des résultats précédents. 


Preuve. Vérifions d’abord que Xr € L! : 
EXT] = $ Eflir-nlXnl] + Ell{r=co)|Xo|] 
n=0 


= X E[fliren EX | Fall] + Ellr=oey | Xoo|] 
n=0 





























< JO Ellr ElXoo| | Fal] + Ell{r=cc}| Xoc|] 
n=0 
= X Ellyr-nlXo0|] + Ellr=0|Xo|] 
n=0 
= EX I] < co. 
De plus, si À € Fr, 
E|14Xr] = ` E Langr=n} X7] 
nENU{ 00} 
T ` E LAn{T=n} Xn] 
nENU{ 00} 
= `> E Langr=n} Xo] 
nENU{00} 
2 Baa. 


Dans la première égalité on utilisé le fait que Xr € L! pour appliquer le théorème de Fubini et 
échanger somme et intégrale, et dans la troisième égalité on utilise légalité X, = EļX v | Fn] 
et la propriété de définition A N {T = n} € Fa. Puisque Xr est Fr-mesurable, l'identité 
précédente suffit à montrer que Xr = E|X» | Fr]. 

Les autres assertions sont faciles : pour la dernière, l'inclusion Fs C Fr entraîne que 


Xs = E|X» | Fs] = E[EIX, | Fr] | Fs] = E[Xr | Fs]. 
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Théorème 12.5.5 Soit (X,),en une surmatingale. Supposons que l’une des deux conditions 
suivantes soit vérifiée : 


(i) Xn > 0 pour tout n € N. 
(ii) La suite (Xn)nen est uniformément intégrable. 


Alors, pour tout temps d'arrêt T, fini ou non, on a Xr € L!. De plus, si S et T sont deux 
temps d'arrêt tels que S <T, on a : 


- dans le cas (i), 1gscooy Xs > E[lir<o}Xr | Fs]; 


- dans le cas (i), Xs > E[X7r | Fs]. 
Preuve. Traitons d’abord le cas (i). On a vu que si le temps d'arrêt T est borné, on a 
E[X7r] < E|Xo] (théorème 12.2.4). Le lemme de Fatou montre alors que pour un temps 


d’arrêt quelconque, 


et donc Xr € L!. Soient ensuite S et T deux temps d’arrêt tels que S < T. Supposons 
d’abord que S et T sont bornés par l’entier N. Alors le lemme 12.4.1 montre que E[X$] > 
E[X7r|. Plus généralement, pour tout événement A € Fs, on peut considérer le temps d’arrêt 


S(w) si w € À, 
sud i siw € À, 


et de même le temps d'arrêt T4 (noter que A € Fr). En écrivant E[X54] > E[Xy4|, on 
trouve 
VAE Fs, EfXs14l > E[Xr14|. 


Revenons au cas général où S et T sont des temps d’arrêt quelconques avec S < T, et soit 
B € Fs. En appliquant ce qui précède aux temps d'arrêt SAk, TAket A=BN{S<Kk}, 
on trouve 
EfX snklznis<n] > E[Xral gnçsexy] > EÏXrnrlznr<n] 


puisque {5S < k} D {T < k} et Xrax > 0. Donc, 
ElXs18nçs<k] > E[Xr18nçr<r)] 
et en faisant tendre k vers œo on trouve par convergence dominée 
EXs18n{5<00)] > E[Xr1lg8nçrec)]. 
En notant Xs = lis) Xs et Xo = lir<%}Xr on a donc, pour tout B € Fs, 
ElXs15] > E[Xr15] = E[E[Xr | Fsl1sl. 
Puisque Xo est Fs-mesurable, cela entraîne facilement X s> E Kr | Fs]. 
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Traitons maintenant le cas (ii). Puisque (Xn)nen est u.i., (Xn)nen est bornée dans L}, et 
donc converge p.s. vers X.. La convergence a aussi lieu dans L! grâce au théorème 12.5.3. 
La convergence L! permet de passer à la limite m — œo dans l'inégalité Xn > E[Xvim | Fal, 
et d'obtenir, pour tout n € N, 

Xn 2 E|X% | Fn). 


Par ailleurs, le corollaire 12.3.6 montre que la martingale fermée Zn = E|X æ | F,] converge 
p.s. vers À. (noter que X est F.-mesurable). Si on pose Y, = Xn — Zn, (Yn)nen est 
une surmartingale positive, telle que Yœ = 0. Du cas (i) (et du théorème 12.5.4) on déduit 
d’abord que Xr = Yr + Zr est dans L!, puis que 

Ys > E[Yr | Fs] 
(les fonctions indicatrices sont superflues puisque Yœ = 0). De plus, en appliquant le 
théorème 12.5.4 à la martingale u.i. Zn, on a aussi 


Zs = ElZr | Fs]. 
En combinant les deux relations obtenues on trouve bien 

Xs > E|Xr | Fsl. 
Exemple. Ruine du joueur. Considérons à nouveau une marche aléatoire simple (pile ou 
face) avec Xo = k > 0. Soit m > 1 un entier tel que 0 < k < m. On pose 

T = inf{n > 0 : Xn = 0 ou Xn = m}. 

Il découle d’un exemple traité dans la partie 3 que T < œœ p.s. La martingale Y, = XnarT 
est uniformément intégrable, puisque bornée, et on a donc E[Y,.] = E[Yo] = k, soit 

mP(Xr=m)=k 
d’où on déduit facilement que 


k k 


On peut généraliser au pile ou face “biaisé” : on suppose que X, = k + Yı +... + Yn, où les 
v.a. Y; sont indépendantes et de même loi 


où p €]0,1[\{5}. Alors il est facile de vérifier que 
x 
Zn = (=) ú 
P 
est une martingale. Si T est défini comme ci-dessus, le fait que la martingale Znar converge 


entraîne que T < œ p.s. Ensuite en appliquant le théorème d’arrêt à la martingale bornée 
Znnr, on trouve 


d'où 
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12.6 Martingales rétrogrades 


Une filtration rétrograde est une famille (Fn)nc-n indexée par les entiers négatifs de sous- 
tribus de F, telle que, pour tous m,n € —N, 


n < m => Fn C Fm- 


NE 


nEe—N 


On notera 


qui est encore une sous-tribu de F. Remarquons que, à la différence du cas “direct” étudié 
précédemment, la tribu F, devient de plus en plus petite quand n — —oo. 

Un processus (X, )\e-n indexé par les entiers négatifs est une martingale rétrograde (resp. 
une surmartingale rétrograde, une sous-martingale rétrograde) relativement à la filtration 
(Fhjne-N Si Xn est F,-mesurable et E||Xn|] < œo pour tout n € —N, et si, pour tous 
m,n € —N, 


n < m => Xn = E|Xm | Fa] (resp. Xn > EļlXm | Fn), Xn < ElXm FD: 
Théorème 12.6.1 Soit (Xn)ne-n une surmartingale rétrograde. Supposons que 


sup E[||Xn]] < co. (12.6) 
nE—N 
Alors la suite (Xn)ne-n est uniformément intégrable et converge p.s. et dans L! vers Xx 
quand n — —o. De plus, pour tout n € —N, 


EIRE SNS Xo. 


Remarques. (a) Dans le cas d’une martingale rétrograde, la condition (12.6) est automa- 
tiquement satisfaite puisqu'on a X, = E[X, | Fn] et donc E[|X,|] < E[lXo]|] pour tout 
n € —N. Pour la même raison, l'uniforme intégrabilité de la suite (X,),-_n, dans le cas 
d’une martingale, découle du corollaire 12.5.2. 

(b) Dans le cas “direct” étudié précédemment, le fait qu’une surmartingale (ou une mar- 
tingale) soit bornée dans L! n’entraîne pas son uniforme intégrabilité : en ce sens le cas 
rétrograde est très différent du cas direct. 


Preuve. Nous commençons par établir la convergence p.s. de la suite (Xn)ne-n, qui découle 
à nouveau de l'inégalité sur les nombres de montées de Doob. Fixons un entier K > 1 et 
posons pour tout n € {0,1,...,K} 


ve T X-K4n, 
gE = F -Rgn 


Pour n > K, on prend aussi YÆ = Xo et GX = Fo. Alors (Y5 )nen est une surmartingale 
relativement à la filtration (GX ),en. En appliquant le lemme 12.3.2 à la sous-martingale 
syr, on trouve pour tous a < b, 


(b — a) E[Nr(la, b], -Y™)] < E[(-YK — a)"] = E[(-Xo — a)™] < la| + E[lXol]. 
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On vérifie aisément que quand K T œ, Nx([a,b], —Y™) croît vers 





N(la,bl,—X) := sup{k € N : mi < nı <- < mx < npg < 0, 
—X y <a —Xm 2 0,..., —X my < 0, —Xn > b} 


qui est le nombre total de montées de (—X,),e-\ le long de fa, b]. Le théorème de convergence 
monotone entraîne donc 


(b — a) EIN (la, b], —X)] < la] + EÏXoÏ] < ce. 


On obtient ainsi que N([a, b], X) < œœ pour tous les rationnels a < b, p.s. Par une adaptation 
évidente du lemme 12.3.1 cela entraîne la convergence presque sûre de la suite (Xn)ne-N 
quand n — —oo, et le lemme de Fatou montre que la limite Xa vérifie E[[X |] < oo. 

Montrons maintenant que la suite (Xn)ne-n est uniformément intégrable. Soit € > 0. 
La suite (E|X—n])nen étant croissante et majorée (grâce à (12.6)) on peut choisir un entier 
K < 0 assez petit de façon que, pour tout n < K, 


BOCI < EX 5, 


La famille finie (Xx, Xx11,..., X_1, Xo) étant uniformément intégrable, on peut choisir 
a > 0 assez grand de manière que, pour tout n € {K, K +1,...,—1,0}, 


ET Xrl1{xl>a) LE 


De plus, on peut choisir ô > 0 assez petit de façon que, pour tout À € F tel que P(A) < ô 
on ait 
Eļ||Xg|1a] < 


NIM 


Ensuite, si n < K, 
E||Xa| Lixa] = El-Xnlixn<-a}] + ElXnlixn>a}] 
= —E|Xnlixn<-a}| + E[Xn] - ElXal{x, <a} 
E 
< —E[E(XX | Falls, <-ay) + ElXr] + E|E|Xx | Fall{xi ca] 





e 
= —E[Xrlix,<-a)] + EX] + 5- ElXr xna] 








E 
= —E|Xrlix,<-a}] + E[Xkr1i{xn>a}] + 3 


E 
E||Xxr|l{xn>a}] + 5 


IA 


Dans la première inégalité ci-dessus, on a utilisé la propriété E[X,] < E|Xg] + £€/2 et 
l'inégalité de surmartingale X, > E[Xx | Fn]. On observe maintenant que 


1 C 
P(IXal > a) < = EUX < + 
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où C = sup E[|X};|] est fini par hypothèse. Quitte à choisir a encore plus grand, on peut 
supposer que C'/a < à, de sorte que 


EX |Lx>e}) < 


NIM 


et en combinant avec ce qui précède, 
E||Xallixn>a}] < €, 


pour tout n < K. Comme cette inégalité est aussi vraie pour n € {K, K +1,...,—1,0}, 
cela termine la preuve de l'uniforme intégrabilité de la suite (X,)1e_n. 

Le reste de la preuve est facile. L’uniforme intégrabilité et la convergence p.s. entraînent 
la convergence dans L!. Ensuite, en écrivant 


E[Xrl4l < EX m1] 
poum<netAEF x C Fm, et en passant à la limite m — —oo, on trouve 
E[Xh14] < E[X> 14] ; VAE F_x. 


On a donc aussi 
E[EIX» | F_oo]14] < E[Xv14], VAE Fe. 


et puisque Xə est clairement F_,.-mesurable, cela suffit pour entraîner E[X, | F_x] < Xe. 














Corollaire 12.6.2 Soit Z une v.a. dans L}, et soit (G,)nen une suite décroissante de tribus. 


Alors, 
p.s., Li 
EIZ |G) "%" E(Z | Goo 
où 


nEN 


Preuve. Pour tout n € N, posons X_, = E|Z | Gn] et F-n = Gn. Alors (Xn)ne-n est une 
martingale relativement à la filtration rétrograde (F,),-_n. Le théorème assure donc que 


X, converge p.s. et dans L! quand n — —c. De plus, grâce à la dernière assertion du 
théorème, X% = E[X0 | Fo] = ElE[Z | Fol | Fo] = EIZ | Feel. 














Applications. (A) La loi forte des grands nombres. Soit £1, £2,... une suite de v.a. réelles 
indépendantes et de même loi, dans Lt. On pose So = 0 et pour tout n > 1, 


On remarque que 


Elgi | Sa] = E Sh (12.7) 
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En effet, on sait qu’il existe une fonction mesurable g telle que E[£ | Sa] = g(S,). Si 
k € {1,...,n}, le couple (k, Sn) a même loi que (£1, Sn), de sorte que, pour toute fonction 
h mesurable bornée, 


El&h(5)] = EGh(S)] = Elgin) hl Sh)] 


ce qui montre qu'on a aussi Elés | Sn] = g(Sn). Il en résulte que 


d’où l'identité annoncée (12.7). 
On a aussi, pour tout n > 1, 


1 
E[é | Le Enkis En+2, . | = = She (12.8) 


Cela découle immédiatement de (12.7) et du lemme suivant, appliqué en prenant Z = &, 
Hı S O(Sn) et Ho = o(En+1, En+2, 2 .). 


Lemme 12.6.3 Soit Z une v.a. dans L! et soient Hı et Ha deux sous-tribus de F. Sup- 
posons que Ho est indépendante de o(Z) V Hı. Alors, 


E|Z | Hi V Ho] = EJZ | Hı] 


La preuve de ce lemme est une application simple du lemme de classe monotone (Théorème 
1.4.1) : on voit immédiatement que la propriété E[142] = E[14E[Z | Hi]] est vraie pour 
les ensembles À € Hı V Ho de la forme A = BNC, avec B € Hi, C E€ Ho, et il en découle 
que cette propriété est vraie pour tout À € Hı V Ho. 

On peut maintenant appliquer le corollaire 12.6.2 en prenant Z = &; et pour tout n > 0, 


Gn = O(Sn; En+1, En+2; a J 


de sorte que tSn = E[Z | G,] par (12.8). On obtient que la suite tSn converge p.s. et 
dans L1. La loi du tout ou rien de Kolmogorov (Théorème 10.2.1) assure que la limite est 
constante et donc égale à lim 2E{S,] = E[é]. 


(B) La loi du tout ou rien de Hewitt-Savage. Soit €, £2, ... une suite de v.a. indépendantes et 
de même loi à valeurs dans un espace mesurable (E, €). L'application w — (£(w),£2(w),...) 
définit une v.a. à valeurs dans l’espace produit EN, qui est muni de la plus petite tribu 
rendant mesurables les applications coordonnées (x1, £2,...) — x; pour tout à € N*. Une 
fonction mesurable F définie sur EN° est dite symétrique si 


F(x, T2, T3,- -) = Ft: Lr(2); Lr(3); : - ) 
pour toute permutation m de N* à support fini. 


Théorème 12.6.4 Si F est une fonction symétrique sur EN° la variable aléatoire F(&, £2, ...) 
est constante p.s. 
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Exemple. Supposons les v.a. €, z, . .. à valeurs dans Rf, et considérons la marche aléatoire 
(en dimension d) 
Xn = & +. + En. 





Si B est un borélien de R4, 
L{Card{n>1:XnE€B}=00} 
est une fonction symétrique de £1, 2, .... On a donc 
P(Card{n > 1:X, € B}=œ)=0ou1. 


Preuve. Sans perte de généralité on peut supposer F bornée. On pose 


Fn = a(éi; sis En) ; Gn = o (Enti, En+2, pa che 
On note Y = F(£1,£2,...) et on pose pour tout n € N 
Xn = E[Y | Fa) , Zn = EY Ge 


Alors le corollaire 12.3.6 assure que X, converge p.s. et dans L! vers E[Y | Fœ] = Y, 
cependant que le corollaire 12.6.2 montre que Z, converge p.s. et dans L! vers E[Y | Gœ] = 
E[Y| puisque G, est grossière (loi du tout ou rien de Kolmogorov). Donc pour tout € > 0, 
on peut choisir n assez grand de façon que 


EX -Yll<e, EllA4 - EN] < €. (12.9) 





D'autre part, il existe une fonction mesurable g : E” — R telle que Xn = g(£1,...,ên), 
et la première borne de (12.9) se traduit par : 


E||F (£1, £2,- .) — 91, see 


Puisque la suite (n41, --- , E2n, E1, < -< , Ens E2n+1; ---) a même loi que (£1, é2...), cette borne 
entraîne aussi que 


E||F (En+1, Pres 1 E1, ee , En, É2n +1; Fe ) = 9(Ën+1; ue , É2n) |] < €. 


Mais F(éi; SRS , Éan 61; see , En, E2n+1, PA ) z F(&, N , En, En+1, oira , E2n, E2n+1, e -) =Y grâce 
à la symétrie de F, et on a donc obtenu 


ENT = E ES (12.10) 
En prenant l’espérance conditionnelle par rapport à Gn, on a 
ETIETY | Ga] — Elg(£n+1,.., 2n) | Gall] < €, 


soit 
ETlZn — 9(£n+1,-.., 62n)|] < €. (12.11) 


En combinant (12.10) et (12.11) avec la deuxième borne de (12.9), on trouve 


E[|Y - EY]|] < 3%. 














Puisque € était arbitraire on a donc Y = E[Y] p.s. 
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Chapitre 13 


Chaînes de Markov 


13.1 Définition et premières propriétés 


Dans tout ce chapitre, E est un espace fini ou dénombrable, qui est muni comme d'habitude 
de la tribu P(E). Une matrice stochastique sur Æ est une famille (Q(x,y),x,y € E) de 
nombres réels satisfaisant les deux conditions : 


(i) 0 < Q(x, y) < 1 pour tous x,y € E; 


(i) pour tout z € E, FOG y) = 1 


yEE 
Cette notion est équivalente à celle de probabilité de transition de Æ dans E : si on pose 
v(z, A) =J Q(xy), zeE, ACE, 
yEA 


on voit que v est une probabilité de transition de Æ dans E (voir le Chapitre 11), et inverse- 
ment si on part d’une telle probabilité de transition v, la formule Q(x, y) = v(x, {y}) définit 
une matrice stochastique sur Æ. 

Pour tout entier n > 1, on peut définir Qn = (Q)" : Qı = Q, et ensuite par récurrence, 


Ge y) = ` Qn(z, z)Q(z, y). 


On vérifie que Q, est encore une matrice stochastique sur Æ. On pose aussi Qo(x, y) = L{r=y}. 
Pour toute fonction f : E — R,, on notera Qf la fonction définie par 


Qf(x) = D Q(x,y)f (y). 


yEE 





Définition 13.1.1 Soit Q une matrice stochastique sur E, et soit (Xn)nen un processus 
aléatoire à valeurs dans E. On dit que (Xn)nen est une chaîne de Markov de matrice de tran- 
sition Q si pour tout entier n > 0, la loi conditionnelle de X,,,1 connaissant (Xo, X1,..., Xn) 
est Q(Xn, y). De manière équivalente, cela signifie que 


P(Xny1 = | Xo = Lo, Xı = piet Ai ~ Dn) = Q(£n, Y), 


pour tous £o, T1,...,Tn, Y E E tels que P(Xo = £o, Xi = 21, ..., Xn = £n) > 0. 
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Remarques. (i) En général, la loi conditionnelle de X,,1 connaissant Xo, X1,..., Xn 
dépend de toutes les variables Xo, X:1,...,X, et pas seulement de la dernière X,. Le fait 
qu'ici cette loi conditionnelle ne dépende que de X, est ce qu’on appelle la propriété de 
Markov : pour prédire le futur (X,1) la connaissance du passé (Xo, X1,..., Xn) ne donne 
pas plus d’information que celle du présent (X,). Nous verrons plus tard d’autres formes 
plus précises de la propriété de Markov, qui correspondent à la même idée. 


(ii) La fonction Q(x,-) donnant la loi conditionnelle de X,,,41 sachant que Xn = x ne dépend 
pas de l’entier n : c’est le caractère homogène de la chaîne de Markov. On pourrait aussi 
considérer des chaînes de Markov inhomogènes, pour lesquelles le mécanisme de transition 
entre les instants n et n + 1 dépend de n. 


Proposition 13.1.1 Un processus (X,),en à valeurs dans E est une chaîne de Markov de 
matrice de transition Q ssi, pour tout n > 0 et pour tous £o, £1,..., £n € E, 


P(Xo = £o, X1 = V1: „Xn = Tn) = P(Xo = To)Q(To, £1)Q(T1, £2) sus -Q(Tn-1; En). (13.1) 
En particulier, on a si P(Xo = zo) > 0, 
PIX = Tta | Xo = z0) = Qro; än). 


Preuve. Si (X,)nen est une chaîne de Markov de matrice de transition Q la formule donnée 
est immédiate par récurrence sur n en écrivant 


P(Xo = £o, Xı EE A = Aa =) = 
= P(Xo = t0, ..., Xn = Tn) x P(Xn+1 = Zn41 | Xo = 20, .-., Xn = Tn). 


Inversement, si la formule donnée est vraie, on vérifie immédiatement que 


P(Xo = zo)Q (to, x1) Ser Q(Tn-1, Ln)Q(Tn, y) 
P(Xo = £0)Q (to, T1) : -° Q(Tn-1, £n) 
Q(£n, y). 


PA =y X= ti An =) = 


La dernière assertion s'obtient en remarquant que 


Goa D, Qpa Ona Oai): 


T1,82, En- 1EE 


Remarque. La formule (13.1) montre que pour une chaîne de Markov (Xn)nen, la loi de 
(Xo, X1,..., Xn) est complètement déterminée par la connaissance de la loi initiale (la loi de 
Xo) et de la matrice de transition Q. 

La proposition suivante rassemble d’autres propriétés simples des chaînes de Markov. 
Dans (ii) ci-dessous, on utilise la notation P(A | Z) pour désigner l'espérance conditionnelle 
E|; | Z]. 


Proposition 13.1.2 Soit (Xn)nen une chaîne de Markov de matrice de transition Q. 


192 


(i) Pour tout entier n > 0 et toute fonction mesurable f : E — R+, 


EU Xni) | Xos Xis- + An] = EI Xnr) | Xa] = Qf (Xn). 


Plus généralement, pour tout sous-ensemble fini {i1,..., ik} de {0,1,...,n—1}, ona 


ETf(Xn11) | Xis S nAi An |= QÎ(X x). 





(ii) Pour tous les entiers n > 0,p > 1 et pour tous y1,...,W€E, 


P(Xn+1 = Yi... Xn+p = Yp | A g > Xn) = Q(Xn: y1)Q (y, Y2) ce Q(Yp-1; Yp), 


et donc 
PSS = Yp | Xn) = Qp(Xn, Yp). 


Si on pose Yp = Xn+p pour tout p € N, le processus (Yp)pen est encore une chaîne de 
Markov de matrice de transition Q. 


Preuve. (i) D’après la définition, 


E| f (Xn) | Xo Xi., X =) Q(X m Y)f =Qf(X n): 
yEE 
Ensuite, si {i4,..., ip} est un sous-ensemble fini de {0,1,...,n — 1}, on a 
Ra | Xans- -e3 Xip Xn] = EEJ f(Xny) | Xo, tre Xn] | Xans- Xin Xn] 


(ii) Il découle immédiatement de (13.1) que 


PA = yi; Ania = Yp | Xo = Lo, ..., Xn = Ta) F Q(Tn, Y1)Q (y1, Y2) ire ANR AE 


La formule pour P(Xn+p = Yp | Xn) en découle en sommant sur les choix possibles de 
Y1,-..,Yp_1. Enfin, pour la dernière assertion, on déduit de ce qui précède que 


P(Y = yo, Yi = y1,- -, Yp = Yp) = P(Xn = y0)Q GO y2) - - - Q(Yp-1; Yp); 


et on utilise la caractérisation donnée dans la proposition 13.1.1. 

















13.2 Quelques exemples 


13.2.1 Variables aléatoires indépendantes 


Si (Xn)nen est une suite de v.a. indépendantes à valeurs dans Æ, de même loi u, alors 
(Xn)nen est une chaîne de Markov de matrice de transition 


Q(x, y) = uly), Vr,yeE. 


La vérification est immédiate. Ce n’est pas l’exemple le plus intéressant de chaîne de Markov ! 
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13.2.2 Marches aléatoires sur Z‘ 


Soient n, £1, É2,..., En, - - des v.a. indépendantes à valeurs dans Z4. On suppose que £, £z, ... 
ont même loi u et on pose pour tout n > 0, 
Xn = + EE EEEE 





Alors (Xh)nen est une chaîne de Markov de matrice de transition 
Q(z,y) = uly — x), Yr,y € E. 
En effet, en remarquant que &,:1 est indépendante de (Xo, X1,..., Xn), on a 


P(X =y Xo =T A dera An Ua) 








SPS — £n | Xo = z0, Dies Xn = Tn) 

E PES = UT Tn) 

=p — En). 
Soit (e1,...,e4) la base canonique de R°. Dans le cas où u(e;) = u(—e;) = + pour tout 
i € {1,...,d}, la chaîne de Markov obtenue est appelée la marche aléatoire simple sur Z4. 


13.2.3 Marche aléatoire simple sur un graphe 


Soit P(E) l’ensemble des parties de Æ à deux éléments, et soit A un sous-ensemble de 
P(E). Pour tout x € FE, on note 


A,;,={yeE:f{x,y}e A}. 


On suppose que À, est fini et non vide pour tout x € E. On définit alors une matrice de 
transition Q sur E en posant pour tous x,y € E, 


1 


deaa a Aea 
0 


sinon. 
Une chaîne de Markov de matrice de transition Q est appelée marche aléatoire simple sur le 


graphe (E, A). 


13.2.4 Processus de branchement 


Rappelons la définition de ces processus déjà étudiés dans le chapitre précédent. Si u est 
une mesure de probabilité sur N, et £ € N, on définit par récurrence une suite (X,) de v.a. 
à valeurs dans N en posant 


Xo =£ 


Xn 
Xas y ds ; Yn EN, 
j=1 
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où les v.a. Enj, n,j € N sont indépendantes et de loi u. Alors, (X,),en est une chaîne de 
Markov sur E = N de matrice de transition 


Q(z, y) = K (y), Vr,yeN, 


où u** est la convolution de u x fois avec elle-même, ou de manière équivalente la loi de la 
somme de x v.a. indépendantes de loi u (en particulier u*? est la mesure de Dirac en 0). En 
effet, en observant que les v.a. Enj, j € N sont indépendantes de X5,..., Xn, on a 


PK = Y | Xo = £0, Xi O. EA 


TRT e 


13.3 La chaîne de Markov canonique 


Nous commençons par un résultat d'existence de chaîne de Markov associée à une matrice 
de transition donnée. 


Proposition 13.3.1 Soit Q une matrice stochastique sur E. On peut trouver un espace de 
probabilité (Q!, F', P') sur lequel il existe, pour tout x € E, un processus (X?)hen qui est une 
chaîne de Markov de matrice de transition Q, issue de X5 = x. 


Preuve. On peut prendre @ = [0,1], muni de la tribu borélienne et de la mesure de 
Lebesgue. A partir du développement dyadique (propre) d’un réel w € [0,1{, 


w= X e(w)2 71, e(w) € {0,1} 


on construit une suite (E€n)nen de v.a. indépendantes de même loi P(en = 1) = P(en = 0) = 
1/2. Si y est une injection de N x N dans N, les v.a. nij = Evui,ÿ), i,j € N sont (évidemment) 
encore indépendantes et de même loi. En posant 


U; = S Tai 
j=0 


on obtient une suite Uo, U1, U2, ... de v.a. indépendantes de loi uniforme sur [0, 1] (pour voir 
que Ų; suit la loi uniforme, noter que }-}-o mj 2777} a même loi que X p-o En 2 "7, pour 
tout entier p, et faire tendre p vers co). 
Soit y1, Y2,- -, Yk,- -- une énumération des éléments de E. Fixons aussi x € E. On pose 
Xð = x puis 
XT = Yk si >» Q(x, yj) < Uı < ` Q(x, yj) 


1<j<k 1<j<k 
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de sorte qu’il est clair que P(X? = y) = Q(x, y) pour tout y € E. On continue par récurrence 
en posant 


Xfu=u Si D Q(XEy) < Un < D Q(XE, y). 


1<j<k 1<j<k 


En utilisant l'indépendance des v.a. U;, on vérifie très facilement que pour tout k > 1, 


n 


z P( X Q(£n, Yj) < Un+1 < D Q(Tn, Y) | Xo = To, XI = Li,.. Xa Ta En) 





1<j<k I<j<k 
— P( ` QE Yj) < Ds < ` Oran) 
1<ÿ<k 1<ÿ<k 
= Q (Tn, Yk), 
de sorte que (Xž)nen est une chaîne de Markov de transition Q. oO 


Dans la suite, il sera utile de faire un choix canonique de l’espace de probabilité sur lequel 
sera définie la chaîne de Markov étudiée. On prendra 


Q= EN. 


Un élément w de Q est donc une suite w = (wo, w1, w2, . ..) d’élements de E. Les applications 
coordonnées X,, n € N sont alors définies par 


Xnlw) = wn. 


On munit Q de la plus petite tribu, notée F, qui rende mesurables les applications coor- 
données. C’est aussi la tribu engendrée par les “cylindres”, c’est-à-dire les ensembles C de 
la forme 

C = {w E€ Q : wo = £0, W1 = in = Tn} 


où n E N et £o, £1,.. -£n € E. 


Lemme 13.3.2 Soit (G,G) un espace mesurable, et soit d une application de G dans Q. 
Alors 1 est mesurable ssi Xn o d l’est pour tout n € N. 


Preuve. Il suffit bien sûr de montrer que si X,, o Y est mesurable pour tout n, alors Y l’est 
aussi. Or, 


{4E F: Y (A) EG} 


est une tribu sur Q qui par hypothèse contient tous les ensembles de la forme Xz+ (y), y € E, 
donc rend mesurables toutes les applications coordonnées X,. Cette tribu est nécessairement 
F tout entière. 














Théorème 13.3.3 Soit Q une matrice stochastique sur E. Pour tout x € E, il existe une 
unique probabilité, notée Pa, sur Q = EN telle que sous P,, le processus des coordonnées 
(Xn)nen est une chaîne de Markov de matrice de transition Q, et Pa(Xo = x) = 1. 
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Preuve. Soit x € E. La proposition 13.3.1 permet de construire sur un espace de probabilité 
(Q/,F", P') un processus (X*),en qui est une chaîne de Markov de transition Q telle que 
Xf = x. On définit alors P, comme la mesure image de P’ par l'application 


YV — Q 
w — (X}(w')}ren. 


Cette application est mesurable grâce au lemme précédent. On a P}(Xo = x) = P'(X$ = 
x) = 1 et de plus pour tous zo, £1,..., En E€ E, 


PL = to, Xi = z1, eu Xn = Tn) = PA == hear) 
m P'( XS = £o)Q(T0, T1) . .Q(£n-1, Tn) 
= P, (Xo = zo)Q (to, zı) . OT Ln) 


ce qui montre que sous P, le processus des coordonnées est une chaîne de Markov de transition 
Q (cf proposition 13.1.1). 

Pour l'unicité, on remarque que si P’, est une autre mesure de probabilité satisfaisant la 
propriété du théorème, les mesures P, et P’, coïncident sur les cylindres. Or les cylindres 
forment une classe stable par intersection finie et qui engendre la tribu F. Le lemme de 
classe monotone montre alors que P, = P’, (cf Corollaire 1.4.2). O 
Remarques. (a) De la dernière assertion de la proposition 13.1.1, on déduit que, pour tout 
n > 0 et tous x,y € E, 

Po(Xn = y) = Qn(r, y). 


(b) Si u est une mesure de probabilité sur Æ, on notera 


P, = ae. 


xeE 


qui définit une mesure de probabilité sur Q. En écrivant la formule explicite pour P,(X = 
To,- --, Xn = £n), On vérifie immédiatement que sous P,,, (X,),en est une chaîne de Markov 
de transition Q, et Xo a pour loi y. 

(c) Si (X} nen est une chaîne de Markov de matrice de transition Q et de loi initiale y, alors 
pour toute partie mesurable B de Q = EN, on a 


P((X/)nen € B) = P,(B). 


En effet cette égalité est vraie lorsque B est un cylindre, et on peut ensuite utiliser le même 
argument qu’à la fin de la preuve ci-dessus. Cette égalité montre que tous les résultats 
que nous établirons dans la suite pour la chaîne de Markov canonique (celle fournie par le 
théorème 13.3.3) se transporteront à une chaîne de Markov quelconque de même matrice de 
transition. 


L'un des avantages importants de la chaîne de Markov canonique est de pouvoir utiliser 
les opérateurs de translation. Pour tout k € N on définit l’application 4, : Q —> Q en posant 


Oe((wn)nen) = (Wk+n)nen: 
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Le lemme 13.3.2 montre que ces applications sont mesurables. 
On note F, = o (Xo, X1,..., Xn) la filtration canonique sur Q. On utilise aussi la notation 
E, pour désigner l’espérance sous la probabilité Pz. 














Théorème 13.3.4 (Propriété de Markov simple) Soient F et G deux fonctions mesurables 
positives sur Q et soit n > 0. Supposons que F est F,-mesurable. Alors, pour tout x € E, 


E,[F - G o 0n] = Ep [F Ex, [G]. 


De manière équivalente, 














E.[G o 0n | Fa] = Ex, [G], 














ce qu’on peut traduire en disant que la loi conditionnelle de 0, (w) connaissant (Xo, X1,..., Xn) 
est Px,. 




















Remarque. Cet énoncé se généralise aussitôt au cas où on remplace E, par E, pour 
n'importe quelle loi initiale u. Il en sera de même pour l'énoncé suivant. 








Preuve. Il suffit de montrer la première assertion, et pour cela de traiter le cas où 
F = Pins es Het 

pour Zo,L1,...,2n € E. Considérons d’abord le cas où G est du même type : 
G= L{Xo=y0,X1=y1,. Xp= Up} 


où p > 0 et Yo, ..-, Yp € E. Dans ce cas, si y € E, 














E, [G] = Liyo=y}Q (Y0, yı) oA Q(Yp-1, Yp) 


et par ailleurs 


E.[F-Go6,] = Pa(Xo = t0, Xi = %1,..., Xn = Tn, Xn = Yo, Xn+1 = Ynt, - - -, Xn+p = Yp) 
Lizro=r}Q(T0, zı) e PILE Tn) Liyo=sn}Q (Y0, yı) . . Q(Yp-1, Yp) 


de sorte qu’on obtient facilement le résultat. Un argument de classe monotone montre ensuite 
que le résultat reste vrai pour toute fonction G = 14, A € F, ce qui permet de conclure. O 


Le théorème précédent donne une forme générale de la propriété de Markov (simple) : 
la loi conditionnelle du futur 0,(w) connaissant le passé (Xo, X1,..., Xn) ne dépend que 
du présent X,. Il sera très important de pouvoir étendre cette propriété au cas où n est 
remplacé par un temps aléatoire T. 

Pour illustrer l'intérêt de cette extension, considérons le problème de savoir si partant 
d’un point x la chaîne y revient infiniment souvent. Autrement dit, en notant 


N; = ÿ li xn=r} 
n=0 
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a-t-on P,(N, = ©) = 1 ? Il suffit en fait de vérifier que la chaîne revient au moins une fois 
en x. Si 
H, = inf{n > 1: Xn = £} 


avec la convention habituelle inf Ø = +00, on a l’équivalence 
P(N; = œ) = 1 e PH: œ) = 1. 


L'implication = est triviale. Dans l’autre sens, supposons P,(H, < oo) = 1. Mod- 
ulo l'extension de la propriété de Markov mentionnée ci-dessus, on sait que On,(w) = 
(WH (w)+n)nen à pour loi P}. Mais alors, en écrivant 


Nzlw) = 1 + N, (On, (w)) 


on voit que N, a même loi que 1 + N, sous P,, ce qui n’est possible que si N, = co, P, p-s. 
Le théorème qui suit permet de rendre ce raisonnement rigoureux (le résultat obtenu sera 
repris et détaillé dans la partie suivante). 


Théorème 13.3.5 (Propriété de Markov forte) Soit T un temps d'arrêt de la filtration 
(Fn). Soient F et G deux fonctions mesurables positives sur Q. Supposons que F est Fr- 
mesurable. Alors, pour tout x € E, 






































E,[Lircoo F -G 0 Br] = Esllyrcoc) F Exr[G]; 


De manière équivalente, 














EslLir<o} G © Or | Fr] = Lir<o} Ex, [G]. 


Remarque. La v.a. Xr, définie sur l’ensemble F7-mesurable {T < o0}, est Fr-mesurable 
(cf Proposition 12.2.3 - dans le chapitre précédent on considère des processus à valeurs réelles, 
mais l’argument reste le même). La v.a. Ex,[G], définie aussi sur l’ensemble {T < o0}, est 
la composée des applications w — Xr(w) et x — E.[G]. 


Preuve. Pour tout entier n > 0, 





























Ex [L{r=n} F.:Go Or] = E;[1{r=n} F:Go On] = D [ren F Ex, [G]] 








d’après la propriété de Markov simple (théorème 13.3.4) appliquée en observant que 1yr=3F 
est F,-mesurable parce que F est F7-mesurable (cf définition de la tribu Fr dans le chapitre 
précédent). Il suffit ensuite de sommer l'égalité obtenue sur toutes les valeurs de n € N. O 


Corollaire 13.3.6 Soit T un temps d'arrêt tel que P,(T < œ) = 1. Supposons qu'il existe 
y E€ E tel que P;(Xr = y) = 1. Alors sous P;, Or(w) est indépendant de Fr et de loi P}. 


Preuve. Avec les notations du théorème, on a 




















EF - G(0r(w))] = ElFEx, [GT] = EL [F E, IG] = E[FÎE,|G 



























































d’où les assertions de l’énoncé. 





199 


13.4 La classification des états 


À partir de maintenant, on utilise uniquement (sauf exception, notamment dans les exem- 
ples) la chaîne de Markov canonique construite dans le paragraphe précédent. Rappelons la 
notation : pour x € E, 


H, = inf{n > 1: Xn = £} 
Mey ipa 
n=0 


Proposition 13.4.1 (et définition) Soit x € E. Ona: 


e ou bien P,(H, < œ) = 1, et alors 


dans ce cas x est dit récurrent; 
e ou bien P,(H, < œ) < 1, et alors 


N <œ, P, p.s. 





et plus précisément E,[N,] = 1/P,(H; = ©) < co; dans ce cas x est dit transitoire. 











Preuve. Pour tout entier k > 1, la propriété de Markov forte montre que 





Pe(Nr Z2k+1) = Ez[l{H.<o} LiN,>r} © 0H] 
= Esfl{x, <o} Ex[1{0,>x}]] 
= P,(H, < œ)P.(N, > k). 











Puisque P,(N, > 1) = 1, une récurrence immédiate donne P,(N, > k) = P,(H4 < o0)"1. 
Si P,(H; < oc) = 1 il en découle aussitôt que P,(N; = oo) = 1. Si P,(H,; < œ) < 1, on 


trouve 
1 


Es [N] = S PN > k) = PH =) < 00. 


Définition 13.4.1 Le noyau potentiel de la chaîne est la fonction U : E x E — [0, o0] 
définie par 


Proposition 13.4.2 (i) Pour tous x,y € E, 
n=0 


(ii) U(x, x) = œ si et seulement si x est récurrent. 
(iii) Pour tous x,y € E, avec x Æ y, 


U(x, y) = P;(H, < œ) U (y, y). 
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Preuve. La propriété (i) est obtenue en écrivant : 


U(x, y) = Ey D de = S PX = y) = FON): 
n=0 n=0 n=0 


La propriété (ii) est une conséquence immédiate de la proposition 13.4.1 et de la définition 
de U. 
Enfin (iii) découle de la propriété de Markov forte : 






























































Es[Ny] = Exfl{r, <00} Ny 0 On] = Er[1 {n<} Ey[Ny] = Pr(Hy < oo) U (y, y). 


Exemple. Considérons la chaîne de Markov sur Z? de matrice de transition 


Q Clt -+> Ta), (Yis -+3 Ya)) = 33 Jli lise 


(c’est un cas particulier de marche aléatoire sur Z4). Cette chaîne de Markov issue de 0 a 
même loi que (Y1,...,Y sen, où les processus Y!,...,Y4 sont des copies indépendantes de 
la marche aléatoire simple (pile ou face) sur Z, issue de 0. En conséquence, 


n 


Qn(0,0) = P(Y} = 0,..., Y$ = 0) = P(Y} = 0). 


Or P(Y} = 0) = 0 si n est impair, et si n = 2k est pair, un argument de dénombrement 


simple montre que 


En conséquence, 


La formule de Stirling montre que 
972k Qk O E ir f 
2k kso R((E)k 2k)? k>% \ Tk 

Donc 0 est récurrent si d = 1 ou 2, et transitoire si d > 3. 


On note R l’ensemble des états (points) récurrents. 


Lemme 13.4.3 Soit x € R et soit y un autre point de E tel que U(x, y) > 0. Alorsy € R 
et P,(H3 < œ) = 1, donc en particulier U (y, x) > 0. 
Preuve. Montrons d’abord que P,(H, < œœ) = 1. Pour cela on écrit 


< 
O=P,(N; <œ) > P,(H, < c,H,00x, = ©) 





= n 


( 
ie [Lim <o} LiHa=0} © Or, |] 
Bellin, <o} P n co)] 
P:(Hy 
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L'hypothèse U(x,y) > 0 entraîne P,(H, < oo) > 0. On conclut que P,(H;, = œ) = 0. 
Ensuite, on peut trouver des entiers n1,n2 > 1 tels que Qn, (x, y) > 0, et Q,(y,x) > 0. 
Pour tout entier p > 0, on a alors 


(ARE (y, y) > Qno (y, OS: Qu (£, y) 


et donc 
U(y, y) > ` (GREAT (y, y) > Qno (y, x) (© CE x)) Qni (z; y) = CO 
p=0 p=0 
puisque x € R entraîne De Qp lz, £) = U(x, x) = œ. oO 


En conséquence du lemme, si x E€ R et y E€ E\R on a U(z,y) = 0 : on ne peut pas passer 
d’un point récurrent à un point transitoire. Cette propriété joue un rôle important dans le 
théorème suivant. 


Théorème 13.4.4 (Classification des états) Il existe une partition de R 
RSIR 
ieI 
telle qu’on ait les propriétés suivantes : 


e six E R, et sii € I est tel que x € R;, on a P, p.s. 
N, = +00, Vy € Ri; 
== AN Vy € E\R;; 
o six E€ E\R et T = inf{n > 0 : Xn € R}, on a P, p.s. 
— ou bien T = œ et N} < œ, Y E€ E; 
— ou bien T < œ et il existe un indice (aléatoire) j € I tel que : Yn > T, Xn € R}. 


Preuve. Pour x,y € R, notons x ~ y si U(x,y) > 0. Il découle du lemme précédent qu’on 
ainsi défini une relation d'équivalence sur R (pour la transitivité, on observe que Q, (x, y) > 0 
et Qn(y, 2) > 0 entraînent Q,:h(x,2) > 0. La partition du théorème correspond alors aux 
classes d'équivalence pour cette relation d'équivalence, qu’on appelle aussi les classes de 
récurrence de la chaîne de Markov. 

Soit i € I et x € Ri. On a U(x,y) = 0 pour tout y € E\R; (dans le cas y € E\R on 
utilise le lemme) et donc N, = 0, Py p.s. pour tout y € E\R;. En revanche, si y € R;,on a 
P;(H, < œ) = 1 d’après le lemme, et la propriété de Markov forte montre que 


P(N; = co) = Es (LiH, <00} Li N, =} © On] = P,(H, < 00) P,(N, = co) = 


Six € E\R et T = œ, alors on déduit facilement de la propriété de Markov forte que 
N, < œ pour tout y € E\R. Si T < œ, notons j l'indice (aléatoire) tel que Xr € R;. En 
appliquant la propriété de Markov forte en T, et la première partie de l'énoncé, on obtient 
aisément que Xn € Rj pour tout n > T. 
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Définition 13.4.2 La chaîne est dite irréductible si U(x, y) > 0 pour tous x,y € E. 


Corollaire 13.4.5 Si la chaîne est irréductible : 


e ou bien tous les états sont récurrents, il existe une seule classe de récurrence et on a pour 
toutx € E, 
P(N, = œ, Yy € E) =1. 


e ou bien tous les états sont transitoires et alors, pour tout x € E, 


P(N, < œ, Vy € E) =1. 


Lorsque E est fini, seul le premier cas peut se produire. 


Preuve. S'il existe un état récurrent, le lemme 13.4.3 montre aussitôt que tous les états 
sont récurrents, et puisque U (x,y) > 0 pour tous x,y € E, on voit aussi qu’il y a une seule 
classe de récurrence. Le reste découle du théorème, à l'exception de la dernière assertion : 
si E est fini et si on suppose que tous les états sont transitoires, on a 


P p:S: SW, < 00 
yEE 
ce qui est absurde puisque 


DM z y y lixn=y} = ` ` Lixn=y} = ©. 


yEE yEE n=0 n=0 yeE 














Une chaîne de Markov irréductible dont les états sont récurrents sera dite récurrente 
irréductible. 


Exemples. Nous reprenons maintenant les différents exemples introduits ci-dessus pour 
discuter dans chaque cas la classification des états. Avant cela, insistons sur le fait que les 
résultats obtenus pour la chaîne de Markov canonique se traduisent immédiatement pour 
une chaîne de Markov quelconque (Yn)nen de transition Q (et inversement). Par exemple, si 
Yo = y, en notant NY = D 0 Liyp=z}, On a pour tout k € N, 


P(N% = k) = P(N; = k)) 
puisque le terme de gauche s'écrit aussi bien 
P((Ya)nen € B) 


avec B = {w € EN: N,(w) = k}, et il suffit d'utiliser la remarque (b) suivant le théorème 
13.3.3. 

(1) Cas de variables aléatoires indépendantes de loi u. Dans ce cas Q(x, y) = u(y). 
On voit facilement que y est récurrent ssi u(y) > 0, et il y a une seule classe de récurrence. 
La chaîne est irréductible ssi u(y) > 0 pour tout y € E. 
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(2) Marche aléatoire sur Z. On a 
= + é 
i=1 


où les v.a. &;, à valeurs dans Z, sont indépendantes et de loi u (et indépendantes de Yọ). 
Dans ce cas, puisque Q(x, y) = uly — x), on voit aisément que U(x, y) est fonction de y — x, 
et donc tous les états sont du même type, récurrent ou transitoire. 


Théorème 13.4.6 Supposons E||é || < œ et soit m = E{£:]|. 
(i) Si m #0, tous les états sont transitoires. 


(ii) Si m = 0, tous les états sont récurrents. De plus, la chaîne est irréductible ssi le 
sous-groupe engendré par {y € Z : u(y) > 0} est Z tout entier. 


Preuve. (i) Si m Æ 0, la loi forte des grands nombres montre aussitôt que |Y,] — © p.s. 
et donc tous les états sont transitoires. 

(ii) Supposons que m = 0 et que 0 est transitoire, donc U (0,0) < œo. Nous allons voir que 
ceci conduit à une contradiction. Sans perte de généralité, on suppose dans la suite que 
Yo = 0. On observe que, pour tout x € Z, 


U(0, £) < U(x, £) = U (0,0) 
la première inégalité découlant de la proposition 13.4.2(iii). En conséquence, pour tout 
n >l, 
XC U0, x) < (2n +1)U(0,0) < Cn (13.2) 


|z|<n 


avec C = 3U (0,0) < oo. 
D’autre part, on sait que n_!Y, converge p.s., donc aussi en probabilité, vers 0. Si on 
pose £ = (4C)7}, on peut trouver N assez grand pour que, pour tout n > N, 


1 
P((Ya| < En) >, 


ou de manière équivalente, 


NI = 


y Oae 


|z| <en 


Sin > p > N, on a aussi 


NI = 


D OO A Q(0,x) > 


|z| <en |z|<ep 


puis en sommant sur p, 





Y U(0,x) > 5 Y Q,(0,2) > _ 


le Sen PEN |æ|<ep 
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Mais d’autre part, d’après (13.2), si en > 1, 


` U(0,x) < Cen = = 


ll Sen 


On obtient une contradiction dès que n est assez grand. 
Il reste à établir la dernière assertion. Notons G le sous-groupe engendré par {x € Z : 
u(x) > 0}. Il est immédiat que 


PM E G,Yn e N)=1 


(rappelons que nous avons pris Yọ = 0). Cela montre que si G # Z, la chaîne n’est pas 
irréductible. Inversement, supposons que G = Z. Alors, notons 


H={xeZ:U(0,x) > 0} 
et observons que H est un sous-groupe de Z : 
e si x,y € H, l'inégalité 
Qn+p(0, £ +y) > Q(0,x) Q(x, £ +y) = Qn (0, 1) Q(0, y) 
montre que x +y € H; 


e si x € H, comme 0 est récurrent, la condition U (0, x) > 0 entraîne U(x,0) > 0 (lemme 
13.4.3) et puisque U (z, 0) = U (0, —x) on a bien —x € H. 





Finalement, puisque H contient {x € Z : u(x) > 0}, on a forcément H = Z. O 
Par exemple, si u = 0-0 + +09 tous les états sont récurrents, mais il y a deux classes de 
récurrence, les entiers pairs et les entiers impairs. 
(3) Marche aléatoire sur un graphe. On considère ici le cas d’un graphe fini : E est fini 
et À est un sous-ensemble de P2(E) tel que, pour tout x € E, A; := {y € E : {x,y} € A} 
est non vide. Le graphe est dit connexe si pour tous z,y € E, on peut trouver un entier 
p > 0 et des élements £o = %,%1,...,29 1,2, = y de E tels que {x;_1,r;} € A pour tout 
iE {1,..., p}. 


Proposition 13.4.7 La marche aléatoire simple sur un graphe fini connexe est récurrente 
irréductible. 


Preuve. Le caractère irréductible de la chaîne découle de la connexité du graphe. Il suffit 
ensuite d’appliquer le corollaire 13.4.5. 0O 


(4) Processus de branchement. Dans ce cas E = N et Q(z, y) = u“ (y). On remarque 
que l’état 0 est toujours absorbant, au sens où 


Po(vn E N, Xy = 0) = 1. 


En conséquence 0 est aussi récurrent. 
Dans la proposition suivante, nous écartons le cas trivial u = ô, où tous les états sont 
absorbants. 
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Proposition 13.4.8 0 est le seul état récurrent. En conséquence, on a p.s. 





e ou bien IN :YWn > N, Xn=0. 
e ou bien Xn — +œ quand n — œ. 


Remarque. On a vu dans le chapitre précédent que le premier cas se produit avec probabilité 
1 si m = `` ku(k) < 1, et que le second cas se produit avec probabilité strictement positive 
si m > 1 (sous l'hypothèse supplémentaire que u a un moment d’ordre 2). 

Preuve. Supposons d’abord que u(0) > 0. Six > 1, U(x,0) > P,(X3 = 0) = y(0)* > 0 
alors que U(0,x) = 0. Cela n’est possible que si x est transitoire. Traitons ensuite le cas où 
(0) = 0. Comme nous excluons le cas u = 01, il existe alors k > 2 tel que u(k) > 0. Alors, 
pour tout x > 1, P,(X1 > x) > 0, ce qui entraîne qu’il existe y > x tel que U(x,y) > 0. 
Comme on a clairement U(y,x) = 0, on conclut encore que x est transitoire. Les autres 
assertions découlent maintenant du théorème 13.4.4. O 


13.5 Mesures invariantes 


Définition 13.5.1 Soit u une mesure positive sur E, telle que u(x) < œ pour tout x € E 
et 1 n’est pas la mesure identiquement nulle. On dit que u est invariante pour la matrice de 
transition Q (ou simplement invariante s’il n’y a pas ambiguîté) si 


WEE, p{y)= D Maley). 


xeE 


Sous forme matricielle, la condition d’invariance s’écrit yQ = u. Puisque pour tout n, 
Qn = (Q)", on peut itérer cette relation et obtenir que Qn = u pour tout n € N. 
Interprétation. Supposons de plus que u(EÆ) < œœ (ce qui sera toujours le cas si E est fini). 
Quitte à remplacer u par u(E) lu, on peut supposer u(E) = 1. Alors, pour toute fonction 
J:E—R,, 


EXA = D ufr) D Q(x,y)f(y) = D fu) D H(x)Q(x,y) = D n(y)f(y) 


x€eE yeE yEE x€cE yeE 





ce qui montre que sous P,, X; a même loi u que Xo. En utilisant la relation 4Q, = Q, on 
obtient de même que pour tout n € N la loi de X, sous P, est u. Plus précisément, pour 
toute fonction F : Q —> R, mesurable, 



























































[F 001] = E,[Ex, [F] = $ | u(x) E-[F] = E,[F] 


xeE 


ce qui montre que sous P,, (Xi+n)nen à même loi que (Xn)nen (et de même, pour tout entier 
k > 0, (Xk+n)neN a même loi que (Xn)nen)- 


Exemple. Pour toute marche aléatoire sur Z° (Q(x, y) = y(y—zx) ne dépend que la différence 
y — x), on vérifie immédiatement que la mesure de comptage sur Zf est invariante. 
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Définition 13.5.2 Soit u une mesure positive non triviale sur E, telle que u(x) < © pour 
tout x E€ E. On dit que u est réversible si 


Vr,y EE, u(x)Q(x,y) = n(y)Q(y, x). 


Proposition 13.5.1 Toute mesure réversible est invariante. 


Preuve. Si u est réversible, 


N ua), y) =X H(y)Q(y, x) = uly). 
xeE zeE 
E 
En revanche, il existe des mesures invariantes qui ne sont pas réversibles : nous avons 
vu que la mesure de comptage est invariante pour toute marche aléatoire sur Z, cependant 
elle n’est réversible que si la loi de saut y est symétrique (y(x) = y(—x)). 





Exemples. (a) Pile ou face biaisé. C’est la marche aléatoire sur Z de matrice de transition 
Qlii+1)=p 
QUi-1)=q=1-p 

où p €]0, 1[. Dans ce cas, on vérifie aisément que la mesure 


=Ë, ieZ 


est réversible, donc invariante. Remarquons que p est différente de la mesure de comptage 
(qui est aussi invariante) sauf dans le cas p = 1/2. 
(b) Marche aléatoire sur un graphe. La mesure 


u(x) = Card(A,) 
est réversible. En effet, si {x,y} € À, 


1 
Card( Az) 


(c) Modèle d’urne d’Ehrenfest. C’est la chaîne de Markov dans {0,1,...,k} de matrice 
de transition 


u(x)Q(x, y) = Card(A,) = 1 = u(y)Q(y, x). 


Q(,3 +1) = s0<j<k-—1 
Qj — 1) = À sil<j<k. 
Une mesure pu est réversible ssi 
sk- j | j+1 
un W rapea 
HIST = a4G +1) — 
pour tout 0 < j < k — 1. On trouve aisément que 
u(i) =C} 


convient. 
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Théorème 13.5.2 Soit x un point récurrent. La formule 


Hz—1 


u(y) = E| D Lex | 


définit une mesure invariante. De plus, u(y) > 0 ssi y appartient à la classe de récurrence 
de x. 














Preuve. Remarquons d’abord que si y n’est pas dans la classe de récurrence de x on a 
E,[N,] = U(x,y) = 0, et donc a fortiori u(y) = 0. 
Ensuite, on écrit pour tout y € E, 


u(y) = [3 Lex) 
Hz 
= Er 5 TER) 
k=1 


= ` DA [iesi x= Lx) 





















































= `> E, [Lies x= Q(z, y) 

















Hg 
DA pa Lex 129) | Q(z, y) 
k=1 


H(2)Q(2,y). 
2€E 
Dans la quatrième égalité, on a utilisé le fait que l'événement {k < Hz, Xx-1 = z} est 
Fx_1-mesurable pour appliquer la propriété de Markov à l'instant k — 1. 
On a obtenu l'identité uQ = u, qu'on peut itérer pour avoir uQ, = u pour tout entier 
n > 0. En particulier, pour tout entier n > 0, 


ufr) =1= 3% Hz). 
2z€E 
Soit y un point de la classe de récurrence de x. Alors, il existe n > 0 tel que Q, (y, x) > 0, et 
la formule précédente montre que u(y) < œo. On peut aussi trouver m tel que QA(x, y) > 0, 
et on à 


(y) = D u(2)Qm(2,9) > Qm(r, y) > 0: 


2€E 
Remarque. S'il existe plusieurs classes de récurrence R;, i € I, alors en choisissant pour 
chaque à € I un point x; € R; et en posant 


Hs;—1 


pily) = En, | 2 Lex) 
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on construit des mesures invariantes à supports disjoints. 


Théorème 13.5.3 Supposons la chaîne récurrente irréductible. Alors la mesure invariante 
est unique à une constante multiplicative près. 

Preuve. Soit u une mesure invariante. On montre par récurrence que, pour tout entier 
p > 0, pour tous x,y € E, 


pA(Hz—1) 


> Lx "+ 


D'abord, si y = x, l'inégalité est immédiate (avec même une égalité). On suppose donc 
y # x. Si p = 0, l'inégalité (13.3) est triviale. On suppose que (13.3) est vraie à l’ordre p. 
Alors, 











ply) > (x) Ex (13.3) 

















ny) = X ue) QG 
> a CE, 5 Te 31061) 












































2€E 
p 
= p(z) `> > Ex [Lix esa- Q(z, y) 
zEE k=0 
p 
= u(x) + Ex ess esm- di 
zEE k=0 
PA(Hz>—1) 
=. u(x) z| ` ae) 
k=0 
(p+1)^Hz 
= HQE] D t) 


k=1 


ce qui donne le résultat voulu à l’ordre p + 1. De manière analogue à la preuve du théorème 
précédent, on a utilisé le fait que l’événement {X% = z, k < H, — 1} est F;-mesurable pour 
appliquer la propriété de Markov à l’instant k. 

En faisant tendre p vers +oo dans (13.3) on trouve 


Hz—1 


Ey | Lx) | ; 
k=0 











uly) > u(x) 





Fixons x € E. La mesure 
H,—1 


Ex | >. Lex) 
k=0 
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Va(y) 


est invariante (théorème 13.5.2), et on a (y) > u(x)r,(y) pour tout y € E. Donc, pour tout 
n > ll, 
pa) = X ue) 2) > Dur) (2)Qn( tr) = ulala) = ule), 
2€E 2€E 
ce qui montre que l'égalité u(z) = u(x)v,(z) a lieu pour tout z tel que Q,(z,x) > 0. 
L’irréductibilité assure que pour tout z € E on peut trouver un entier n tel que Q,(z,x) > 0, 
et on conlut donc que u = u(£)Vr, ce qui termine la preuve. oO 





Corollaire 13.5.4 Supposons la chaîne récurrente irréductible. Alors : 


(i) Ou bien il existe une mesure de probabilité invariante u, et on a pour tout x € E, 














(ii) Ou bien toute mesure invariante a une masse totale infinie, et on a pour tout x € E, 














Es| Hz] = o0. 
La chaîne est dite récurrente positive dans le cas (i) et récurrente nulle dans le cas (ii). 


Remarque. Si E est fini seul le cas (i) se produit. 
Preuve. D’après le théorème 13.5.3, toutes les mesures invariantes sont proportionnelles. 
Donc ou bien elles sont toutes de masse totale infinie (cas (ii)) ou bien elles sont toutes finies, 
et on peut normaliser pour en trouver une qui soit une mesure de probabilité (cas (i)). Dans 
le cas (i), soit u l'unique mesure de probabilité invariante et soit x € Æ. Alors, si Vy désigne 
la mesure invariante fournie par le théorème 13.5.2, 


Hz—1 


vs(y) = Ee | 2 bah 


u est proportionnelle à v, : u = Cv, avec C > 0. En écrivant 1 = u(E) = C,(E), on 
trouve C = (v,(E))"1, d’où 












































o a) 1 
MS E te 
2a Hz—1 Hz—1 
ve(E) = ÿ. z| > Lex | = E. | > (Xi) = Elf] 


Dans le cas (ii), v, est infinie, et donc, par le même calcul, 











= vs( E) = 06: 





Proposition 13.5.5 Supposons la chaîne irréductible. S'il existe une mesure invariante 
finie, la chaîne est récurrente (et donc récurrente positive). 
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Preuve. Soit y une mesure invariante finie, et soit y € E tel que (y) > 0. Pour tout 
x € E, la proposition 13.4.2(ïi) donne l'inégalité 


D Qhir,y) a <U(u,v). 


On multiplie les deux membres de cette inégalité par y(x) et on somme sur toutes les valeurs 
de x € E. Il vient 


NO Qalu) < (E) U (y, y). 
n=0 
Puisque y est invariante on a yQna(y) = y(y) > 0 pour tout n > 0. On conclut donc que 


y(E)U(y, y) = 00 


Comme y(ÆE) < œ, cela entraîne que U (y, y) = œ. Donc y est récurrent et puisque la chaîne 
est irréductible elle est récurrente (corollaire 13.4.5). oO 





Remarque. L'existence d’une mesure invariante infinie ne permet pas de conclure : con- 
sidérer par exemple le pile ou face biaisé (exemple (1) ci-dessus après la proposition 13.5.1) 
qui n’est récurrent que si p = 1/2. 

Exemple. Soit p €]0,1[. Considérons la chaîne de Markov sur Æ = N de matrice de 
transition 


Q(k,k+1)=p, Q(k,k—-1)=1-p, si k > 1, 
Q(0,1)=1. 
Cette chaîne est irréductible. De plus on vérifie immédiatement que la mesure u définie par 
ma) = (1) > ski 
„(0)=1-p, 
est ere donc invariante. 


Si p <4 , la mesure p est finie, et la proposition 13.5.5 entraîne que la chaîne est récurrente 
positive. (Exercice : Montrer que la chaîne est récurrente nulle si p = Ł, et transitoire si 


1 à 
ps 


13.6 Comportement asymptotique 


Nous continuons à considérer la chaîne de Markov canonique associée à une matrice de 
transition Q. 


Théorème 13.6.1 Supposons la chaîne récurrente irréductible, et soit u une mesure invari- 
ante. Soient f et g deux fonctions positives sur E telles que f f du < œ et 0 < [ gdu < œ. 
Alors, pour tout x € E on a P, p.s. 


Dof(Xx) _ J'fdn 
D 09) Tee n>% [du 
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Remarque. Le résultat reste vrai si u(f) = co. Il suffit d'utiliser un argument de compa- 
raison en écrivant f = lim f fp, avec des fonctions positives fẹ telles que f frdp < co. 


Corollaire 13.6.2 Si la chaîne de Markov est irréductible et récurrente positive, et si u 
désigne l’unique probabilité invariante, on a Py p.s. 


1 n 
PILOTE 


Le corollaire découle immédiatement du théorème en prenant g = 1 dans l'énoncé. 


Preuve du théorème 13.6.1. On définit les temps d’arrêt 
To =0 ; Tı = H; 
et par récurrence 
Taşı = inff k > Thn : Xp = T}. 


Le temps T, est l'instant du n-ième retour en x de la chaîne. Puisque l’état x est récurrent, 
tous ces temps d’arrêt sont finis p.s. On pose aussi pour tout k > 0, 


Tk4+1—1 


a= D SO: 


n=Tk 


Lemme 13.6.3 Les v.a. Zk(f), k = 0,1,2,..., sont indépendantes et de même loi. 





Preuve. Soient go, g1,g2,... des fonctions mesurables bornées sur R+}. Il suffit de montrer 
que, pour tout entier k > 0, on a 


























| LA] = ILE (ZI 


i=0 i=0 


On démontre cette identité par récurrence sur k. Pour k = 0 il n’y a rien à montrer. Pour 
passer de l’ordre k — 1 à l’ordre k, on observe que : 


e les v.a. Zo( f), Zi(f),...,Zx-1(f) sont Fr,-mesurables (exercice !); 
e la suite translatée Or, (w) est indépendante de Fr, et de loi P,, d’après le corollaire 13.3.6; 
e on a Zx(f) = Zo(f) © 0r,, par construction. 


Il découle de tout ceci que 


























z [Taz] z r (T AD) °6r)| = a [Tw E,[gx(Zo(f))] 
d’où le résultat voulu à l’ordre k. o 
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Nous revenons à la preuve du théorème. Si v, désigne comme précédemment la mesure 
invariante construite dans le théorème 13.5.2, on a u = u(x)v, puisque v(x) = 1 et que 
toutes les mesures invariantes sont proportionnelles (théorème 13.5.3). On observe alors que 











ASE D Erwin] = rw = LE 


k=0 yeE yCE p(z) 




















Le lemme 13.6.3 et la loi forte des grands nombres montrent ensuite que P, p.s. 





(13.4) 


15 __ J'fdn 
DD Penn 


Pour tout entier n, notons N,(n) le nombre de retours en x effectués par la chaîne avant 
l'instant n, de sorte que Tuyn) < n < TN, (n)+1. En écrivant 


TNa(n)—1 n TNe(n)+171 
> A(X) F(X) >X f(x) 
k=0 < K= < k0 
N, (n) Z Nin) ~ N,(n) 
ce qui équivaut à 
Nz(n)—1 Ti Nz(n) 
Zi(f) F(X) Zil) 
j—0 k=0 < 1 
N,(n) N(n) ~ N(n) 





Il suffit ensuite d'utiliser le même résultat avec f remplacée par g pour finir la preuve. O 


Corollaire 13.6.4 Supposons la chaîne récurrente irréductible. Alors, pour tout x € E, 


(i) dans le cas récurrent positif, 


1 n—1 
7 > Li x,=r} > u(x), 
k=0 


où est l’unique probabilité invariante; 


(ii) dans le cas récurrent nul, 


1 n—1 
p.s. 
=D l= > 0. 
k=0 
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Dans les deux cas la convergence a lieu pour toute loi initiale de la chaîne. 
Définition 13.6.1 Soit x un point récurrent, et 

Ls = {n > 0 : Qt) > 0}. 
La période de x, notée d(x), est le PGCD de Ly. 


Remarque. Puisque Ly est stable par addition (Q,:,(x,x) > Qn(z, £)Qm(z,£)), le sous 
groupe engendré par L, est Ly — Ly = d(x)Z. 


Proposition 13.6.5 Supposons la chaîne récurrente irréductible. 
(i) Tous les points ont la même période, appelée la période de la chaîne et notée d. 


(ii) Si d = 1 (la chaîne est alors dite apériodique), pour tous x,y € E, il existe un entier 
no tel que Qn(z, y) > 0 pour tout n > no. 


Preuve. (i) Soient x,y € E. Puisque la chaîne est irréductible, il existe deux entiers n1 et 
No tels que Qni (x, y) > 0 et Q,,(y,x) > 0. Mais alors, si n € L,, on a nı +n +n E Ly, ce 
qui entraîne que Ly — Le C Ly — Ly et donc d(y) divise d(x). Par symétrie on a d(y) = d(x). 
(ii) Clairement, il suffit de traiter le cas où y = x. Puisque d(x) = 1, on peut trouver deux 
entiers n1, Mı > 0 tels que 1 = nı — mı et 


Qni (z, £) > 0, Qmı (z, £) > 0. 
Si mı = 0, donc nı = 1 le résultat est évident avec no = 0. Si m1 > 1, alors, pour tout 
j € {0,1,...,Mmı — 1}, ona 
Qm245(2, £) = Qjni+(mi-jm (£, £) > 0. 
Il en découle que, si no = m? on a pour tout entier j > 0, 
Qno+i(, £) > 0. 


Théorème 13.6.6 Supposons la chaîne irréductible, récurrente positive et apériodique. Alors, 
si 1 désigne l'unique probabilité invariante, on a pour tout x € E, 


X PC = y) — ny) — 0. 


Preuve. La formule 


Q((x1, £2), (y1, Y2)) = Q(x1, y1)Q(t2, y2) 
définit une matrice stochastique sur le E x E. On note ((X}, X2)nen, (Pai, 22))(@1,22)€ Ex E) 
la chaîne de Markov canonique associée. 
Remarquons que Q est irréductible : si (x1, £2), (y1, Y2) € E x E, la proposition 13.6.5(ïi) 
permet de trouver deux entiers nı et n2 tels que Q,(x1,y1) > 0 pour tout n > nı, et 
Qn(t2, Y2) > 0 pour tout n > na. Sin > nı Vna, on a par définition Q,„((£1, £2), (y1, Y2)) > 0. 
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De plus la mesure produit y @ u est invariante pour Q : 


D MELE) n)a) = X MaRa) D H(æ2)Q(x, y) 


(x1,22)EEXE EE x€ E 


= u(yi)uly2). 


La proposition 13.5.5 permet de conclure que la chaîne (X}, X2) est récurrente positive. 
Observons maintenant que 











PACA = y) = u(y) Sn Pies (X2 = ) = Pos (X] T ) = Eos» [Li x2=y} be, Lixi=y}]: 





Introduisons le temps d’arrêt T = inf{n > 0 : X} = X?}. Alors, légalité précédente montre 
que 














Pe(Xn = y) — uly) = Eugi lliTr>n(lixz=} — Lxi) 
ag ` X Epos [lir=k x1=x2=2}(l{x2=v) = Lx): (13.5) 
k=0 2€E 


Mais, pour tout k € {0,1,...,n} et tout z € E, la propriété de Markov entraîne que 














Eyes. [L{r k, X}=X2=2} L{x2 y = Epos [L{r=r,x1=x2=2}] Qn-k(2, Y) 




















= Epos [Lir k,X}=x2 alx wh 

















et donc le deuxième terme de la somme dans (13.5) est nul. On obtient ainsi que 


` Pa(Xn = y) — u(y )| `> [Eposs [L{Tr>n} (l{x2=y} — lixi=y})]l 
yEE yEE 


< J Eos lltr>n (lizz +l) 
yEE 
= 2 Pie, (T > n), 

















qui tend vers 0 quand n — œœ, grâce à la récurrence de la chaîne (X}, X2). oO 


13.7 Martingales et chaînes de Markov 


On considère toujours la chaîne de Markov canonique de matrice de transition Q. 





Définition 13.7.1 Une fonction f : E — R, est dite harmonique (resp. surharmonique) 
si on a pour tout x € E, 


f(x) = Qf(x) (resp. f(x) > Qf(x)). 


Plus généralement, si F C E, on dit que f est harmonique sur F (resp. surharmonique sur 
F) si la propriété f(x) = Qf(x) (resp. f(x) > Qf(x)) est vraie pour x € F. 
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Remarque. On pourrait considérer plus généralement des fonctions harmoniques ou surhar- 
moniques de signe quelconque. 


Proposition 13.7.1 (i) La fonction f est harmonique (resp. surharmonique) ssi, pour tout 
x € E, le processus (f(Xn))nen est une martingale (resp. une surmartingale) sous P,, 
relativement à la filtration (Fa). 


(ii) Soit F C E et G = E\F. On note To le temps d'arrêt 
To =inf{n > 0: X E G}. 


Alors si f est harmonique (resp. surharmonique) sur F, le processus (f(XnaTo))nen est une 
martingale (resp. une surmartingale) sous P}, pour tout x € F. 


Preuve. (i) Supposons d’abord f harmonique. Alors, d’après la proposition 13.1.2(i), 


et en conséquence E,[f(X,)] = E:[f(X0)] = f(x), donc f(X,) € LA. 
Inversement, supposons que f(X,) est une martingale sour P}. Il vient immédiatement 
que 


























fx) = E[f(Xo)] = E[S (X1)] = Qf (2). 


Le cas d’une fonction surharmonique est traité de la même façon. 
(ii) Traitons le cas d’une fonction harmonique. On écrit pour x € F 


























Es [f(X(n+14Te) | Fal z Er[f(Xn+1) L{re>n} | Fn] T Elf (Xre) L{ro<n} | Fa] 
Lire>n} Eelf (Xnr) | Fn] + FX Te) Are<n 

= Lrsn} Qf(Xn) + (Xe) liTe<n} 

LiTo>n} f(Xa) + f(Xre) HTe<n} 

= f(XnrTe) 


























On a utilisé le fait que f(Xro) ltTo<n} = f(X Tonn) L{Te<n} est F,-mesurable. 








Théorème 13.7.2 Soit F un sous-ensemble non vide de E et G = E\F. Soit g : G — R, 
une fonction bornée. 


(i) La fonction 
h(x) = Es[g(Xre) {rc <oo}], LEE 


est harmonique sur F. 


(ii) Supposons Ta < œ, P, p.s. pour tout x € F. Alors la fonction h est l’unique fonction 
bornée sur E qui 


e est harmonique sur F, 


e coincide avec g sur G. 
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Preuve. (i) On remarque que si x € F on a P, p.-s. 


g(Xro) LiTe<o} = Y(XTe © 01) L{Tgo01 <00} 


Autrement dit, si U (w) = g(Xr,(w)) LiTew)<œ}, on a U = U 001, P, p.s. Donc, pour x € F, 
d’après le théorème 13.3.4, 
























































h(x) = E[U] = E, [U 0 01] = Ez [Ex [U]] = Es [h(X1)] = QA(x), 


ce qui montre que h est harmonique sur F. 

(ïi) I est trivial que h(x) = g(x) si x € G. Soit h’ une autre fonction harmonique 
sur F, bornée sur E et coïncidant avec g sur G. Si x € F, d’après la proposition 13.7.1, 
Yn = h'(XnaTo) est une martingale sous P,. Cette martingale est bornée, donc uniformément 
intégrable, et converge P, p.s. vers R' (Xr) = g(Xre). D’après les résultats du chapitre 12, 
on a donc 





























h'(x) = Es [Yo] = Es [Y] = Ex[9(Xre)] = h(x). 


Exemple. Problème de Dirichlet discret. Soit F une partie finie de Z‘. La frontière de F 
est 











ðF = {y € ZF : Jx € F, |y — z| = 1}. 





On note F = F U OF. 
Une fonction A définie sur F est dite harmonique (au sens discret) sur F si pour tout 
x € F, h(x) est égal à la moyenne des valeurs de h sur les 2d plus proches voisins de x. 
On retrouve la notion précédente en prenant comme chaîne de Markov la marche aléatoire 
simple sur Z? : Q(x, x + e;) = + pour j = 1,...,d, où (e1,...,e4) est la base canonique. 
Alors, le théorème précédent conduit au résultat suivant : pour toute fonction (positive) 
g définie sur F, la seule fonction h : F — R+ telle que : 





e h est harmonique sur F, 
e h(y) = gly), Yy € OF, 


est donnée par 
h(x) T E:[9(Xr»)] ) z EF, 
où 
Tər = inf{n > 0 : Xn E€ OF}. 
Noter que pour appliquer le théorème 13.7.2, on a a priori besoin de définir g sur Z4\F et 


non pas seulement sur ôF : cependant le choix des valeurs de g sur Z\F n’influe pas sur 
les valeurs de A sur F. 
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Chapitre 14 


Introduction au mouvement brownien 


14.1 Le mouvement brownien comme limite de marches 
aléatoires 


L’explication physique du mouvement brownien justifie le mouvement très désordonné et 
imprévisible d’une particule brownienne par les nombreux chocs que cette particule reçoit 
du milieu environnant, qui provoquent des changements de direction continuels. D’un point 
de vue mathématique, cela suggère de considérer le déplacement à temps discret, sur le 
réseau Z4, d’une particule ponctuelle qui à chaque instant choisit de manière indépendante 
du passé une nouvelle direction. 

Précisément on considère une marche aléatoire (S,),en sur Zf, issue de O: 


où les v.a. Y1, Y2,... sont indépendantes à valeurs dans Z4, et de même loi u. On suppose 
que u vérifie les propriétés suivantes : 


On ajoute aussi à ces deux hypothèses principales la condition d’isotropie suivante : 


e il existe une constante © > 0 telle que pour tous i, j € {1,...,d}, 


La marche aléatoire simple sur Z? (cf chapitre précédent) vérifie ces hypothèses, avec 
g? = 1/d, et il existe beaucoup d’autres exemples. 
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On va s'intéresser au comportement “global” de la fonction k —> Sp sur un “long” 
intervalle de temps. Pour cela on introduit le changement d'échelle suivant. Pour tout entier 
n > 1, pour tout réel t > 0, on pose 


o 1 


Ja 


où [x] désigne la partie entière du nombre réel x. 


st) Sini) 


Proposition 14.1.1 Pour tout choix de l’entier p > 1 et des nombres réels 0 = to < tı < 
RS eo ona 


(5) gr) 


Ji to + 


n loi 
SC UE Ut) 


n—0O 


et la loi limite est caractérisée comme suit: 
e les v.a. U1, U2 — U1, ...,Up — U,_1 sont indépendantes; 


e pour tout j € {1,..., p}, U;j—U;_: est un vecteur gaussien centré de matrice de covariance 
o?(t;j —t;_1)Id (par convention, Uo = 0). 


Remarque. La densité de la loi limite est facile à écrire explicitement. La densité de 
U; — U;_1 est port, _+, (x), où, pour tout a > O, 


JI 





1 |z|? md 
Pa(t) = mra Zh zER 


est la densité du vecteur gaussien de covariance a Id (rappelons que les coordonnées d’un tel 
vecteur sont des v.a. réelles M (0, a) indépendantes, voir la Proposition 11.4.2 et la remarque 
suivant cette proposition). Grâce à l'indépendance des v.a. U1, U2 — U1, ..., Up — Up-1, on 
obtient que la densité de (U1, U2 — U1, . . . , Up — Up-1) est 


g(x1, e. sT) = Po?tı (£1)Po2(t2-t1) (£2) G “Doté ta) (Tp), 


et par un changement de variables facile, la densité de (U1, U2, .. . , Up) est 


Fur... Up) = 9(yr Yan, -- + Vpn Up-1) = Ports (Y1) Po2(t2—t1)(Y27Y1) * * ° Po?(tp—tp-1) (Yp Yp-1)- 








Preuve. Il suffit de montrer que, pour tous &1,...,£, € R$, 
p 
E| exp (i dE si) ] — E| exp (i 5G U;)| 
j=l ER j=l 
Cela équivaut à dire que, pour tous m, ..., np € RI, 
p p 
Elep(iŅ n (9 -s)| — Eler (Dm (U;-0;1))] (141) 
j=1 j=1 
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Or on sait déjà, grâce à l'indépendance des v.a. U1, U2 — U:,... ,U, — Up-1, que 


p 


E|exp (nu »)] = [lefe (in (U;-U;-1))| = exp o3 ai _ bu) 


(on utilise la formule pour la transformée de Fourier de la loi gaussienne). D'autre part, 


[ntz] 
Mo tm) i 
Sa — in = vn >, Ye 
k=[nt;_1]+1 
ce qui montre d’une part que les v.a. g” — po 1 < j < p sont indépendantes, d’autre 
part que pour chaque j fixé 


(a) olm) Qi) 1 _ y Int;] — [nt;-1] 1 
SE — Sia = Prés A e Sintj]-Int;-al 
J IT 


Grâce au théorème central limite vectoriel, cette dernière variable converge en loi quand 
n — œ vers yt; — tj—ı N, où N est un vecteur gaussien de covariance o?Id (on utilise aussi 
la propriété simple suivante : si X, converge en loi vers X et si (an) est une suite de réels 
convergeant vers a, alors a, X, converge en loi vers aX). En conséquence, pour chaque j 
fixé, 


E| exp (in; | (oo = aal er: Elexp(i/t; ti in; - N)] = exp ( = nes) 


L'indépendance des v.a. se — J ` 1 < j < p, permet maintenant de conclure au résultat 
recherché (14.1). o 


Définition 14.1.1 On appelle mouvement brownien (en dimension d, issu de 0) une famille 
(Bihier, de v.a. à valeurs dans R‘, définies sur un espace de probabilité (Q, F, P), telles 
que : 





(P1) On a Bo = 0 p.s. De plus, pour tout choix de l'entier p > 1 et des nombres réels 
0 = to < ti <- < tp les v.a. Ba, Bu — B;,,...,B,, — Bı sont indépendantes, 
et, pour tout j € {1,...,p}, Bı, — Bi, est un vecteur gaussien centré de covariance 
(t; —t;-1)d. 


(P2) Pour tout w € Q, la fonction t — B,(w) est continue. 


Remarques. (i) En admettant l'existence du mouvement brownien (établie ci-dessous), on 
peut reformuler la Proposition 14.1.1 en disant que, pour tout choix de tı < -++ < tp, 


O S 


ta 5 


n (loi) 
T her (oB,,0B,,,...,0B,). 


A la multiplication par le scalaire ø près, le mouvement brownien apparaît donc comme la 
limite continue de marches aléatoires discrètes convenablement changées d’échelle. D’une 
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certaine manière, cette limite correspond, pour le phénomène physique appelé mouvement 
brownien, au passage de l’explication microscopique aux observations macroscopiques. 


(ii) Comme on l’a vu ci-dessus, la loi de (Ba, B;,,..., Bt) est donnée par 


P((Ba, Bi,- Bẹ) € A) = l dy . . . dYp Pu (Y1)Pta—tı (Y2 — V1) * * Ptp—tp-1 (Yp — Yp-1), 
A 
(14.2) 





pour toute partie brélienne A de (R‘}?. 


14.2 La construction du mouvement brownien 


Théorème 14.2.1 Le mouvement brownien existe. Autrement dit on peut construire sur 
un espace de probabilité convenable une famille (Bi)ter, de v.a. satisfaisant (P1) et (P2). 


Preuve. On traite d’abord le cas d = 1, et dans un premier temps on va construire la 
famille (B:)eto,1. Le choix de l’espace de probabilité (Q,F, P) ne pose pas de problème : il 
suffit de au sur cet espace d’une suite de v.a. gaussiennes W(0, 1) indépendantes (on 
a vu dans le chapitre précédent qu’en prenant Q = [0,1] on pouvait construire une suite 
de v.a. indépendantes de loi uniforme, qu’il est facile de transformer en une suite de v.a. 
gaussiennes M (0, 1) indépendantes). 

Introduisons les fonctions de Haar. On pose 


hoft) =1, Vtef0,1] 
puis, pour tout entier n > 0 et pour tout k € {0,1,...,2" — 1}, 
hË (t) = on/2 Li(2k)2-77-1 (2k+1)2-”-1] aan on/2 Li(2k+1)272-1,(2k+2)277-1[, Yt E l0, 1]. 


On vérifie que les fonctions ho, hë forment un système orthonormé de Ł?([0, 1], 8([0, 1]), À) 
où À désigne la mesure de Lebesgue. De plus ce système est total : toute fonction en escalier 
constante sur les intervalles de la forme [i27”, (i+1)27”[ (pour n fixé) est combinaison linéaire 
des fonctions ho et hë pour p < n. On conclut que la famille 


Ro, (hë )]n>0,0<k<2n— 1 


forme une base D de Ł?([0, 1], 8([0,1]), À). 
Notons (f, g) SSN t)dt le produit scalaire dans L?([0,1], B([0,1]), À). Alors, pour 
toute fonction f € L?([0, k na 1]),à) on a 


oo 27—1 


TEN; ho)ho + X` ` hp) in 


n=0 k=0 


D’autre part, nous disposons sur notre espace de probabilité (Q, F, P) d’une suite de v.a. 
N (0, 1) indépendantes. Quitte à la renuméroter on peut écrire cette suite sous la forme 


No, (NĚ )]n>0,0<k<2n— T: 
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Il est immédiat de vérifier que cette famille constitue un système orthonormé dans L?(Q,F, P). 
Il existe alors une (unique) isométrie, notée B, de L?([0, 1], B([0, 1]), À) dans L?(Q,F, P) telle 
que B(ho) = No et B(h*) = NE pour tous n > 0,0 < k < 2" — 1. Précisément, 


B(f) = (f, ho) NS (f, RENNE, 


n=0 k=0 


pour toute f € L?([0, 1], B([0, 1]), À) (la série converge dans L?(Q,F, P)). Remarquons que 


E[8(f)1 = | fl 


par la propriété d’isométrie, et que E[B(f)] = 0 puisque les v.a. No, NF sont toutes centrées. 
De plus le lemme suivant montrera que B(f) suit une loi gaussienne. 


Lemme 14.2.2 Soit (U,) une suite de v.a. gaussiennes qui converge dans L? vers U. Alors 
U est aussi gaussienne. 


Preuve. Soit m, = E[U,] et o? = var(U,). La convergence dans L? assure que Mm, — m = 
EU] et ož — o? = var(U). Mais d'autre part, puisque la convergence dans L? entraîne la 
convergence en loi on a aussi pour tout £ € R, 





gimns-Et 2 Eje] — fi] 


ce qui montre que la fonction caractéristique de U s'écrit 


Elet] = eimé—o?€?/2 


et donc que U suit la loi N(m, o°). o 
En écrivant ME 
B(f) = lim ((f, ho) No +Y YO (SPE) NE), 
n=0 k=0 


et en utilisant le fait qu’une combinaison linéaire de v.a. gaussiennes indépendantes est 
encore gaussienne, on déduit du lemme que B(f) suit la loi M (0, || FIŻ). Remarquons aussi 
que, pour f, f” € L*([0,1], 8([0,1]), À), 


cov(B(f), B'(F)) = EIB(F)B(F)] = (F, F) 


grâce à la propriété d’isométrie. 
On pose alors, pour tout t € [0,1], 


Bı = B(1io,4)- 
En particulier, Bo = B(1{03) = B(0) = 0 p.s. 
Vérifions d’abord que la famille (B;)4ejo 1 vérifie la propriété (P1), restreinte à l'intervalle 


de temps [0,1]. On se donne donc 0 = to < tı < --- < tp < 1. Par linéarité, on a 


Bi; mi By = B(1},_,4;) 
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qui suit une loi W(0,t; —t;_1). De plus, si i Æ j, 





cov(B,, = Buis B; = bi.) z E|(B;, = Bi) (B; = Bi; )] = (Ltii,ti] Le a,t;]) =0. 
Or il est facile de vérifier que le vecteur (Ba, Be — B,,,...,B,, — B,,,) est un vecteur 
gaussien : si A,...,À, € R, 


p 
Aj(By — By) = B( > Xl 1031) 
j=1 


j=1 


suit une loi gaussienne. D’après la Proposition 11.4.2, le fait que la matrice de covariance 
(cov( Be, — Br; B —Bi1))ij=1,..p Soit diagonale entraîne l'indépendance des v.a. Ba, Bis — 
B4,,...,B;, — B1; ce qui achève la preuve de (P1). 

Il reste à établir la propriété de continuité (P2). Pour l'instant, B; = B(1joa) est défini 
comme un élément de L?(Q,F, P), donc une classe d’équivalence de variables égales p.s. Pour 
que la vérification de (P2) ait un sens, il est nécessaire de spécifier un représentant dans cette 
classe d'équivalence, et cela pour chaque t € [0,1] (ce choix m'avait pas d'influence sur la 
validité ou non de (P1) mais il en a pour (P2)). A cette fin, nous allons étudier de plus près 
la série qui définit B;. On commence par introduire les fonctions de Schauder 


golt) = (Lot; ho) =t 


t 
g= S I hë (s)ds. 


0 
Par construction, on a pour tout t € [0,1], 


oo 27—1 


B; = Bip) = No + >» >. GENE 


n=0 k=0 


où la série converge a priori dans L? (Q, F, P) pour chaque t € [0, 1] fixé. Nous allons montrer 
bien plus, à savoir que la série converge uniformément sur l'intervalle [0, 1], pour tout w € Q, 
sauf peut-être pour w appartenant à un ensemble A € F de probabilité nulle. On définit 
alors B;(w) comme la somme de la série précédente si w € A° et on prend B(w) = 0 pour 
tout t € [0,1] si w € A (puisque si une suite de v.a. converge p.s. et dans L? les limites p.s. 
et L? sont les mêmes, il est clair qu’on a ainsi simplement spécifié un choix dans la classe 
d'équivalence de v.a. égales p.s. à B(1b4), et on n’a rien changé à la validité de (P1)). On 
obtiendra la continuité des applications t — B(w) en observant qu’une limite uniforme de 
fonctions continues est continue. 

On remarque d’abord que 0 < gË < 27™? et que pour n fixé les fonctions gË, 0 < k < 
2? — 1 sont à supports disjoints (gE (t) > 0 seulement si k27” < t < (k + 1)27”). Donc, 


n/2 





2”—1 
sup [JOON <2 sop INA 
te[0,1] k=0 O<k<2n—1 
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Lemme 14.2.3 Si N suit la loi N'(0,1), on a pour tout a > 1, 
P(IN| > a) <e-/2, 


Preuve. Il suffit d'écrire 





2 9S, 2 o0 2 
P(|N| > a) = | dre’? < Te dre = > = 














Puisque les v.a. NF sont toutes de loi N (0,1), on peut utiliser le lemme pour majorer 


271 
P( sup [NE] > 24) < DO PUNI > 24) < 2 exp(-287)). 
O<k<27—1 k=0 


En posant 
Hs { sup |NË| > ga} 


O<k<IN— 1 


on déduit du lemme de Borel-Cantelli et de l’estimation précédente que 
P(lim sup An) = 0. 


Donc si A = limsup À, on a P(A) = 0 et ď’autre part si w € A, alors pour tout n assez 
grand 
sup [NM] < 27/4 
0<k<2n—1 
d’où 
2—1 


D N E 
k=0 





sup 
te[0,1] 
ce qui assure que la série de la définition de B, converge uniformément sur l'intervalle [0, 1]. 
Cela termine la vérification de (P2). On peut aussi remarquer que cette construction donne 
Bo(w) = 0 pour tout w € Q et pas seulement p.s. 
Il reste à s'affranchir de la restriction t € [0, 1], et à généraliser le résultat en dimension 
d quelconque. Dans un premier temps on considère des familles E a (Bou etc. 
construites comme ci-dessus, en prenant à chaque fois une nouvelle suite de v.a. gaussiennes 
indépendantes, indépendante des suites précédentes. On pose ensuite 


B= BO B 4... BOB grek kti 





On vérifie aisément que (B;):eR, est un mouvement brownien en dimension un. 
Pour passer à une dimension d quelconque, il suffit de se donner d mouvements browniens 
en dimension un indépendants, notés (Bl)ser.,...,(Bf)ser, et de poser 


B, = (Bi Bees BS) 





pour tout t € R+}. Ceci achève la preuve du théorème. 0 





Si x € R‘, on appelle mouvement brownien issu de x tout processus (Br, tel que 
(B: — £)ter, soit un mouvement brownien issu de 0. 
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14.3 La mesure de Wiener 

















Soit C(R.,R1) l’espace des fonctions continues de R} dans R°. On munit cet espace de la 
tribu C qui est la plus petite tribu rendant mesurables les applications coordonnées w — w(t) 
pour tout t € R}. 














Lemme 14.3.1 La tribu C coïncide avec la tribu borélienne lorsque C(R4, R®) est muni de 
la topologie de la convergence uniforme sur tout compact. 


Preuve. Soit B la tribu borélienne. L’inclusion C C B découle de ce que les applications 
coordonnées sont continues donc mesurables pour la tribu boréliennes. Dans l’autre sens, 
rappelons qu’une distance sur C(R.,R°) est fournie par 











d(w,w) = Ÿ 27" sup (|w) —w/(#)| A1). 


O<t<n 











On sait que l’espace C (R4, R4) est séparable et donc que tout ouvert est réunion dénombrable 
de boules. Il suffit alors de montrer que toute boule est dans la tribu C, ou encore que pour 
wo € C(R4, R?) fixé, l'application w — d(wo, w) est C-mesurable. Or en écrivant pour tout 
n >l, 











sup (|w(t) — wo(t) A1) = sup (w(t) — wo(é)| A1) 
te[0,n] te [0,n]NQ 





on obtient immédiatement cette propriété de mesurabilité. 0 


Définition 14.3.1 Soit (Biher, un mouvement brownien en dimension d (issu de 0), défini 
sur un espace de probabilité (Q), F, P). La mesure de Wiener en dimension d est la mesure 
de probabilité Po sur C (R4, R2) définie comme la mesure-image de P(dw) par l'application 











DE wW —> (Bi(w) jier, 
Q — C(R+, R°’) 











Remarquons que l’application ® est mesurable : comme cela a été observé dans le chapitre 
précédent dans un contexte un peu différent, il suffit de voir que la composée de ® avec 
chacune des applications coordonnées w — w(t) est mesurable, ce qui est immédiat (cette 
composée donne les v.a. B+). 

La définition précédente n’a de sens que parce qu’elle ne dépend pas du choix du mouve- 
ment brownien B. Cela se voit de la manière suivante. Si 0 = tọ < tı < +-+- < tp, on a pour 
tous Ap, A1,..., Ap boréliens de R, 








Po({w € C(R,, R?) : w(to) € Ao, w(t1) € A1,..., w(t,) € À,}) 
= P(B;, € Ao, Ba € A:,..., Be € Ap) 








= 14, (0) | dyi . . . dYp Pr (Y1)Pta—t: (Y2 — Y1) ** * Ptp—tp-1 (Yp — Yp-1); 
A1X--XAp 


d’après la formule (14.2), qui est vraie pour n'importe quel mouvement brownien B (c’est 
juste une reformulation de (P1)). Or le lemme de classe monotone montre qu’une mesure de 


226 











probabilité sur C(R4, R) est caractérisée par ses valeurs sur les “cylindres”, c’est-à-dire les 
ensembles de la forme 











{w € C(R4, R?) : w(to) € Ao, w(t1) € A1,...,w(t,) € Ap}. 


Cela montre bien que Po est déterminée de manière unique, indépendamment du choix du 
mouvement brownien B : autrement dit tous les mouvements browniens (issus de 0) ont la 
même loi, qui est la mesure de Wiener. 











Remarque. En un certain sens, la mesure de Wiener joue sur l’espace C(R4, R2) un rôle 
analogue à la mesure de Lebesgue sur [0,1]. 





Si x € R?, on note aussi P,(dw) la mesure-image de P,(dw) par la translation w — x +w 
(c’est la loi du mouvement brownien issu de x). 
Construction canonique du mouvement brownien. Elle consiste à prendre comme 
espace de probabilité Q = C(R,, R?) muni de la tribu C et de la probabilité Po. On définit 
alors pour tout t > 0, 











B(w) = w(t), Vw e Q. 


La famille (B;)4er, , définie sur l’espace de probabilité (Q, C, Po), est un mouvement brownien 
issu de 0. La propriété (P2) est évidente. La propriété (P1) découle de la formule donnée 
ci-dessus pour 











Po({w € CR, R°) : w(to) € Ao, w(ti) € A1,...,w(t,) € Ap}. 


De même, sous Pz, (B:)seR, est un mouvement brownien issu de x. 


14.4 Premières propriétés du mouvement brownien 


Dans ce paragraphe et le suivant, on considère un mouvement brownien B en dimension d, 
issu de 0. Pour tout s > 0 on note F, la tribu engendrée par les v.a. (B,,0 < r < s). On 
note aussi F, la tribu engendrée par toutes les v.a. Bi, t € R4. 








Proposition 14.4.1 (i) Si est une isométrie vectorielle de R°, (p(B:)Jier, est aussi un 
mouvement brounien (en particulier —B est un mouvement brownien); 


(ii) pour tout y > 0, le processus B} = Ž Byz est aussi un mouvement brownien (invariance 
par changement d'échelle); 


(iii) pour tout s > 0, le processus B® = B,:,-—B, est un mouvement brownien indépendant 
de F, (propriété de Markov simple). 


Preuve. (i) et (ii) sont très faciles. Pour l'indépendance dans (iii), on observe que pour 
tout choix de tı < t2 < +- < tp et r1 < T2 <- < T4 X s, la propriété (P1) entraîne que le 
vecteur 


CE DE et 


29% 


est indépendant de 
(Br, Ser Br). 


En utilisant la Proposition 9.2.4, on en déduit aisément que la famille (BASS , est indépendante 
de (B,)o<r<s- 0O 


Théorème 14.4.2 (Loi du tout ou rien de Blumenthal) Soit 
Fos =. N Fo 
s>0 


La tribu Fo est grossière, au sens où VA € Fop, P(A) =0 ou 1. 


Preuve. Soit A € Fo+ et soient #1,...,t, > 0. Pour £ > 0 assez petit, la propriété de Markov 
simple (Proposition 14.4.1 (ïii)) entraîne que (B;, — B.,..., Be, — Be) est indépendant de 7, 
donc a fortiori de 79,. En conséquence, pour toute fonction f continue bornée sur (R®)P, 





Eli f(Ba — Ba,- , By — Be)] = P(A) EIS (Ba — Be,- , Be — Be). 
En faisant tendre £ vers 0 on trouve 
E|14 f(B:,...,B,)] = P(A) Eff(B4,...,8B,)], 
et donc (B;,,..., Be) est indépendant de F5,. Grâce à nouveau à la Proposition 9.2.4, il 


en découle que Fœ est indépendante de Fo}. En particulier Fop C Fo est indépendante 
d'elle-même, ce qui entraîne que F5, est grossière. 














Corollaire 14.4.3 On suppose d = 1. Alors, p.s. pour tout € > 0 


sup B, > 0, inf B, <0. 


0<s<e 0<s<e 





Pour touta € R, soit Ta = inf{t > 0 : Bi = a} nf Ø = œ). Alors, 





p-s., Va ER, Ta < œ. 


En conséquence, p.s., 
lim sup B; = +00, lim inf B; = —o0. 
t—00 709 

Remarque. Il n’est pas a priori évident que la variable SsUPọ<s< Bs soit mesurable: il 
s’agit d’un supremum non dénombrable de fonctions mesurables. Cependant, parce que 
nous savons que les trajectoires de B sont continues, on peut se restreindre aux valeurs 
rationnelles de s € [0,€] et on obtient un supremum dénombrable de variables aléatoires 
(ou alors on peut utiliser le Lemme 14.3.1). 


Preuve. Soit (€p) une suite de réels strictement positifs décroissant vers 0, et soit 


0<s<Ep 


A=(ŅÑ sup B, > 0}. 
p 
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Il est clair que l'événement A est F:-mesurable. D'autre part, 


P(A) = lim | P( sup B, > 0), 


P99 0<s<Ep 


et 
1 
P( sup B, > 0) > P(Baą > 0) = >, 
0<s<ep 2 


puisque B., suit la loi gaussienne M (0, €p) qui est symétrique. Cela montre que P(A) > 1/2. 
D’après le Théorème 14.4.2 on a P(A) = 1, d’où 


p.s. Ve > 0, sup B, > 0. 


O<s<E 


L’assertion concernant info<s<e Bs est obtenue en remplaçant B par —B. 
Ensuite, on écrit 


1 = P( sup B, > 0)= lim f P(sup B, >ô), 


0<s<1 0<s<1 


et on remarque en appliquant la propriété d’invariance d'échelle (Proposition 14.4.1 (ii)) avec 
y = ô que 
P( sup B, >ô)= P( sup B°>1)=P( sup B,>1) 
O<s<1 O<s<1/62 O<s<1/62 
(la dernière égalité est vraie parce que la loi du mouvement brownien est définie de manière 
unique : voir les remarques suivant la Définition 14.3.1). En faisant tendre ô vers 0, on 
trouve 
P(sup B; > 1) = 1. 


s>0 


A nouveau un argument de changement d’échelle montre que pour tout À > 0, 


P(sup B, > A)=1 


s>0 
et en utilisant le changement B — —B on a aussi 


P(inf B; < —A) = 1. 
s>0 


Les dernières assertions du corollaire en découlent facilement: pour la dernière, on observe 
qu’une fonction continue f : R} — R ne peut visiter tous les réels que si lim sup; 4o J (t) = 
+oo, liminfs 0 f(t) = —00. 




















En utilisant la propriété de Markov simple, on déduit facilement du corollaire que p.s. la 
fonction t — B, n’est monotone sur aucun intervalle non-trivial. 
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14.5 La propriété de Markov forte 


Notre but est d'étendre la propriété de Markov simple (Proposition 14.4.1 (ii)) au cas où 
l'instant déterministe s est remplacé par un temps aléatoire T. Nous devons d’abord préciser 
la classe des temps aléatoires admissibles. On garde les notations F, et Fə introduites ci- 
dessus. 


Définition 14.5.1 Une variable aléatoire T à valeurs dans [0, oo] est un temps d'arrêt si 
VH>0 {T<t}eF. 


Remarque. Si T est un temps d’arrêt, pour tout t > 0, 
ete) Lea 
qEQN[O,t[ 


est dans F. 
Exemple. En dimension d = 1, T, = inf{t > 0 : B; = a} est un temps d'arrêt. En effet 


{T,<t}={ inf |[B.-al=0}ef. 


reQN/0;t] 
Définition 14.5.2 Soit T un temps d'arrêt. La tribu des événements antérieurs à T est 
Fr={A E€ F; Yt>0, ANTT<IFEF +. 


On vérifie facilement que les variables aléatoires T et lir<œ}Br sont Fr-mesurables 
(pour la deuxième remarquer que 


Liréo}BT = Jim ` Lio-n<T<(ir1)2-n} Bin, 
i=0 


puis que, pour tout s > 0, B;lys<r, est Fr mesurable). 


Théorème 14.5.1 (Propriété de Markov forte) Soit T un t.a. tel que P(T < œ) > 0. 
Alors, conditionnellement à {T < o0}, le processus B®) défini par 


BP = Bry — Br 


est un mouvement brownien indépendant de Fr. 


Remarque. Pour être tout à fait précis, il faut aussi définir B® sur l’ensemble {T = co}, 
par exemple en posant B;(w) = 0 pour tout t > 0 si T(w) = œ (ce choix n’a évidemment 


aucune influence sur le résultat ci-dessus). 


Preuve. Supposons d’abord T < © p.s. On va montrer que, pour A E€ Fr,0 <t <: < tp 
et F continue bornée de (R°)? dans R}, on a 








PGR eoa be = P(A) E[F(B,..., Be)]. (14.3) 


(A ©? 
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Cela suffit pour établir les différentes assertions du théorème : le cas À = Q montre que 
BC) est un mouvement brownien (remarquer que les applications t — BP (w) sont contin- 


ues) et d’autre part (14.3) entraîne que pour tout choix de 0 < tı < -++ < tp, le vecteur 
(8, die B est indépendant de Fr, d’où il découle que B? est indépendant de Fr. 
Pour montrer (14.3), on observe d’abord que p.s. 


T T 
Hp) 


= lim $ Lu-na-nerce-n) F(Bra-nqn — Brozs., Bro-ni — Bron), 
k=0 


d’où par convergence dominée, 


BILAP ec Bo) 


3 tp 


= Jim ` EfLali(-12-rer<n2-n) t (Bro-npti — Byo-n,..., Bko-npt, — Byo-n)|]. 
k=0 


Pour À € Fr, l'événement AN {(k — 1)2” < T < k27"} est Fpo-n-mesurable. D’après la 
propriété de Markov simple (Proposition 14.4.1 (ii)), on a donc 


ELang(-12-ner<p2-r} F(By2-n44, — Byo-n,..., Byo-n44, — Bko-n )| 
= P(AN {(k = D < T < k27}) EJF (Ba Ba) 


et il ne reste plus qu’à sommer sur k pour arriver au résultat souhaité. 
Lorsque P(T = o0) > 0, les mêmes arguments conduisent à 


Elles B i Sa = P(AN {T < œ}) E[F(B:,...,B:) 


et le résultat recherché en découle à nouveau. 0 
Une application importante de la propriété de Markov forte est le principe de réflexion 
illustré dans la preuve du théorème suivant. 


Théorème 14.5.2 On suppose d = 1. Pour tout t > 0, notons S; = sup, Bs. Alors, si 


a>0etb<a,on a 
P(S, > a, B; < b) = P(B; > 2a — b). 


En particulier, Sı a même loi que |B;|. 
Preuve. On applique la propriété de Markov forte au temps d’arrêt 
T, = inf{t > 0, B; = a}. 
On a déjà vu (Corollaire 14.4.3) que T, < œœ p.s. Ensuite, 
P(S > a, Bi <b) = P(T, < t, B: <b) = P(T, <t, BU) <b— a), 
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puisque per = B; — Br, = B,— a. Notons B' = B), de sorte que d’après le théorème 


14.5.1, le processus B’ est un mouvement brownien indépendant de Fr, donc en particulier 
de Ta. Comme B’ a même loi que — B’, le couple (Ta, B’) a aussi même loi que (Ta, — B’). 
Notons H = {(s,w) € R4 x C(R4, R); s < t, w(t — s) <b—a}. La probabilité précédente 
vaut 














P((Ta, B’ € H| = P|(T,,—B') € H) 
= Ppa AB <b-—a) 
= P(T, <t, B, > 2a—b) 
= P(B, > 2a —b) 


parce que l'événement {B, > 2a — b} est contenu dans {T, < t}. 
Pour la deuxième assertion on observe que 


P(S; > a) = P(S; > a, Bi > a) + P(S; > a, Bi < a) = 2P(B, > a) = P(|B4| > a), 











d’où le résultat voulu. 
On déduit immédiatement du théorème précédent que la loi du couple ($;, B+) a pour 


densité 22 b) o D 
a — a — 
=E (#7) L{a>0,b<a}- 





g(a, b) = 


2 


Corollaire 14.5.3 (d = 1) Pour tout a > 0, T, a même loi que Sz et a donc pour densité 


1 





a a? 
t) = (- )1 
Ï(t) en (ro) 
Preuve. On écrit 
P(T < t) = P(S, > à) 
= PE a) (Théorème 14.5.2) 
= P(B? >a’) 
= P(tB? >a’) (B; a même loi que vtB1) 
2 
= P(% <t) 
1 
Ensuite, puisque B; suit une loi W(0, 1) on calcule facilement la densité de a?/B?. oO 


Reformulation sur l’espace canonique. 


En vue des applications qui suivent, il sera utile de reformuler la propriété de Markov sur 
l’espace canonique Q = C(R},Rĉ). A partir de maintenant on se place donc sur cet espace, 
sur lequel on considère le processus B(w) = w(t), et la filtration canonique F; = o(B,,0 < 
s < t). Rappelons que, pour tout x € R$, (B:):>0 est sous P, un mouvement brownien issu 
de x. 
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On introduit aussi les opérateurs de translation. Pour tout s > 0, 4, : Q —> Q est défini 
par 
(Ow) t) = w(s +t), VE > 0. 


Alternativement, B; o 0, = B.,4. 


Théorème 14.5.4 Soit T un temps d'arrêt, et soient F et G deux fonctions mesurables 
positives sur Q. On suppose que F est Fr-mesurable. Alors, pour tout x € R‘, 


Ex[L{réoo)F -Go Or = Er[Lir<o}F š E g, [G]. 









































Remarque. Comparer cet énoncé avec le Théorème 13.3.5. 


Preuve. On se ramène facilement au cas z = 0. Pour alléger l’écriture supposons aussi 
Po(T < œ) = 1. Le point-clé est d'observer que si T(w) < œ, 


(Orw)(t) = w(T +t) = w(T) + (w(T + t) — w(T)) = Br(w) + BO (w). 


Ensuite on écrit 






































Eollir<o}F -G o Or] = Eo[lir<o}F + G(Br + BP)] = Eollir<o}F Eo[G(Br + B®) | Frl], 























où BP désigne la fonction continue (RO Peso vue comme v.a. à valeurs dans C(R., R‘). 
D’une part Br est Fr-mesurable, d'autre part B® est indépendant de Fr et de loi Po, 
d’après le Théorème 14.5.1. En utilisant le Théorème 11.3.4, on a 














U[G(Br + BO)|Fr] = | Poldw) G(Br +w) = Enr(G 














d’où le résultat voulu. 


14.6 Fonctions harmoniques et problème de Dirichlet 


Nous avons introduit dans le Chapitre 7 la mesure de Lebesgue sur la sphère 9%! notée wa. 
La mesure de probabilité uniforme sur la sphère S41 est la mesure de probabilité og obtenue 
en normalisant wa. D’après le Chapitre 7, o4 est donc reliée à la mesure de Lebesgue Aq sur 
R? par la formule explicite 





r($+1) 
rd/2 


oal A) = Aal{re:0<r <1, TEA 

pour tout borélien A de S%1. Comme wa, la mesure g4 est invariante sous l’action des 
isométries vectorielles. De plus, le Théorème 7.2.1 donne la formule d'intégration en coor- 
données polaires : pour toute fonction borélienne f : Rf — R4, 








f(x) dz = ca D f(r2) r 1 dr oaldz). (14.4) 
Rd o Jsi 


274/2 
TaJ: 





avec cqa = 
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Lemme 14.6.1 La mesure o4 est la seule mesure de probabilité sur la sphère ST qui soit 
invariante par l’action des isométries vectorielles. 


Preuve. Soit u une autre mesure de probabilité sur 9%! invariante par l’action des 
isométries vectorielles. Alors, pour tout € € R? et toute isométrie vectorielle ®, 





nas I SE (dx) = T PET) (da) f EE (dx) = A(P(E)). 





Il en découle que A(£) ne dépend que de |E], et donc il existe une fonction f : R} — C telle 
que, pour tout € € R?, 





ACE) = f(E). 


Le même argument montre qu’il existe une fonction g : R+ —> C telle que 


Ga(é) = g(lél). 





Alors, pour tout r > 0, 


Ja os Et (dx) )ou(dé) = A fr) oa(dé) = f(r) 


et d’après le théorème de Fubini cela est aussi égal à 


l s Éd) )u(da) = a g(r) u(dx) = g(r). 


Donc f = g, d’où ji = Ga et u = oa grâce au Théorème 8.2.4. oO 





Si x € R? et r > 0 on note B(x,r) la boule ouverte de centre x et de rayon r, et B(x,r) 
la boule fermée. La probabilité uniforme sur la sphère de centre x et de rayon r, notée 0, 
est par définition l’image de o4(dy) par l'application y — x + ry. 

Rappelons que jusqu’à la fin du chapitre on considère le mouvement brownien défini sur 
l’espace canonique comme cela a été précisé à la fin de la partie précédente. 





Proposition 14.6.2 Soit x € R? etr > 0, et soit S le temps d'arrêt 
S = inf{t > 0 : |B — x| > r}. 
La loi de Bs sous P, est la probabilité uniforme 037. 


Preuve. Modulo une translation et un changement d’échelle, il suffit de traiter le cas 
x = 0,r = 1, dans lequel o,, = o4. Les propriétés d’invariance du mouvement brownien 
montrent que la loi de Bg est alors invariante par l’action des isométries vectorielles. Grâce 
au Lemme 14.6.1, la loi de Bs doit être oa. 




















Rappelons qu’un domaine D est un ouvert connexe de R?. Une fonction h : D — R est 
dite localement bornée si elle est bornée sur tout sous-ensemble compact de D. 
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Définition 14.6.1 Soit D un domaine de R?. Une fonction mesurable localement bornée 
h: D — R est dite harmonique si, pour tous x € D etr > 0 tels que la boule B(x,r) soit 
contenue dans D, on a 





h(z) = f jose (14.5) 


En d’autres mots, la valeur de h en x coïncide avec sa moyenne sur la sphère de centre 
x et de rayon r, pourvu que la boule fermée B(x,r) soit contenue dans D. 


Problème de Dirichlet classique. Etant donné un domaine borné D et une fonction 
continue g : OD —> R, on veut trouver une fonction h : D — R telle que : 








e hop = g au sens où, pour tout y € OD, 


g(y)= lim h(x); 


z—>y,rED 


e h est harmonique sur D. 


Le théorème suivant fournit un candidat à la solution du problème de Dirichlet. 


Théorème 14.6.3 Soit D un domaine borné, et soit g une fonction mesurable bornée sur 
ƏD. Notons 
T = inf{t > 0: B; € D}. 


Alors la fonction 
h(x) = E:fg(Br),  xeD 


est harmonique sur D. 


Ce théorème est bien sûr analogue à un résultat de la fin du chapitre précédent concernant 
les relations entre chaînes de Markov et fonctions harmoniques discrètes. 


Preuve. En écrivant 
{T <t} = (um dist(B,, D°) = 0} 

on voit que T est un temps d’arrêt. Des propriétés du mouvement brownien en dimension 
un il découle aussi que T < œo P, p.s. On a vu qu'alors Br est une variable aléatoire (même 
Fr-mesurable) et donc E,|g(Br)] est bien définie, et bornée par sup{|g(y)|, y € 0D}. 

Justifions maintenant le fait que A est mesurable. Rappelons la notation C pour la 
tribu introduite sur C(R}, Rf). Alors, pour tout À € C, l'application x — P,(A) est 
mesurable : cela est vrai pour les cylindres de la forme À = {w : w(t1) € A1,...,w(t,) € Ap}, 
puisque dans ce cas on a une formule explicite, et il suffit ensuite d'utiliser un argument de 
classe monotone. Il en découle que pour toute fonction F mesurable bornée sur C (R4, R), 
l'application x — E,|F] est mesurable. On applique ceci à 
































F(w) = Lir(w)<oo}9(Br(W)) = L{r(w)<o0}(W(T(W))) 


et on obtient ainsi que À est mesurable. 
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Fixons maintenant x € D et r > 0 tels que B(x,r) C D. Posons 


= inf{t > 0 : Bi ¢ B(x,r)} = inf{t > 0 : |B; — x| > r}. 











Il est clair que S < T, P} p.s. (en fait S(w) < T(w) pour tout w € Q = C(R.:,R°)). De 
plus, 
Br = Br O Os ; Ez PS. 


En effet c’est simplement dire que si t — w(t) est une “trajectoire” issue du point x, le point 
de sortie de D pour cette trajectoire est le même que celui pour la même trajectoire dont 
on a “effacé” le début entre le point de départ et le point de sortie de la boule B(x;, r) : cela 
est évident parce que B(x,r) C D. 

On peut donc utiliser la propriété de Markov forte sous la forme du Théorème 14.5.4 et 
obtenir 












































h(x) = Eslg(Br)] = Exlg(Br) 0 05] = Es [Egs l9(Br)]] = Exlh(Bs)] = | h(y) Cx,r(dy) 


la dernière égalité étant la Proposition 14.6.2. Cela termine la preuve. 0 

Pour montrer que la fonction h du théorème précédent est solution du problème de 
Dirichlet (sous l'hypothèse supplémentaire de continuité de g), il faudrait aussi montrer que, 
pour tout y € OD, 














g(y) = lim E,[g(Br)]. 


x—y,xEe D 


Intuitivement, si x € D est proche de y € D, le mouvement brownien partant de x va sortir 
rapidement de D, donc le point de sortie Br sera proche de x, et aussi de y, et la continuité 
de g assurera que g(Br) est proche de g(y) ce qui conduira au résultat voulu. Avant de 
rendre précis ce raisonnement, ce qui exigera certaines hypothèses supplémentaires, nous 
commençons par traiter la question de l’unicité de la solution. 

La proposition suivante montre que les fonctions harmoniques sont automatiquement très 
régulières. 


Proposition 14.6.4 Si h est harmonique sur D, h est de classe C® sur D. De plus, si 
xzED etr > 0 sont tels que B(x,r) C D, on a 


h(x) = ae h(y) dy. (14.6) 
B(x,r) 
Preuve. Soit ro > 0, et soit 


Do = {x € D : dist(x, D°) > ro}. 


Il suffit de montrer que A est de classe C% sur Do. Pour cela, considérons une fonction 
ọ : R —> R, de classe C% à support compact contenu dans [0,r0[, et non identiquement 
nulle. Alors, pour tout x € Do et tout r €]0, rol, 











h(x) = Jostas) h(z) = foua) h(x + ry). 


236 


On multiplie les deux membres extrêmes de cette égalité par r%lo(r) et on intègre par 
rapport à dr entre 0 et ro. En utilisant la formule (14.4) on trouve que, pour une constante 
c > 0 dépendant seulement de ®, on a pour tout x € Do, 


ch) = ca f T o(r) | oaldy) hlæ + ry) 
l SERNA EA] 


J dz ġ(lz — z|)h(2) 
B(x;,ro) 


J doz- ah 


où pour la dernière égalité on a noté h la fonction obtenue en prolongeant h par la valeur 0 sur 
D° (le choix de cette valeur n'intervient pas puisque si x € Di et z € D° on a ọ(|z— z|) = 0). 

On voit ainsi que sur Do, h coïncide avec la convolution de la fonction z — 6(|z|), qui 
est de classe C% et à support compact, avec la fonction h, qui est mesurable bornée. Nous 
avons remarqué à la fin du Chapitre 2, comme application du théorème de dérivation sous 
le signe intégrale, qu’une telle convolution est de classe C®. 

Il reste à établir la deuxième assertion. En reprenant le calcul ci-dessus avec 0 = 1h» 
on trouve pour x € Do, 


HE f dy h(y) 
B(x;,ro) 


où la constante c’ dépend seulement de @, donc seulement de rọ. En prenant h = 1 (qui est 
harmonique), on voit que € = (A{(B(x, ro))) ! d’où le résultat annoncé. oO 


Corollaire 14.6.5 Si une solution du problème de Dirichlet existe, elle est unique. 


Preuve. Soient h et ho deux solutions, et soit f = hı — h2. Supposons f non identiquement 
nulle. Quitte à échanger les rôles de hı et h2 on peut supposer que f prend des valeurs 
strictement positives. La fonction obtenue en prolongeant f par la valeur 0 sur ðD est 
continue sur D, et doit donc atteindre son maximum M dans D (rappelons que D est 
supposé borné et donc D est compact). Soit x, un point de D tel que f(xọ) = M. D’après 
la proposition précédente on a pour tout r < dist(xo, D°), 


1 


fe) = CT Í O] 


soit 
f aw- fu) 0. 
B(xo;r) 
Puisque f(xo) > f(y) pour tout y € D, ceci n’est possible que si f(xo) = f(y), Aa(dy) p-p. 


sur B(xo,r). Comme f est continue (à nouveau grâce à la proposition précédente) on a donc 
f(xo) = f(y) pour tout y € B(xo,r). On a ainsi montré que {x € D : f(x) = M} est ouvert. 
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Mais d’autre part cet ensemble est aussi un fermé de D, et puisque D est connexe, on a 
nécessairement {x € D : f(x) = M} = D. Cela est absurde puisque M > 0 et f doit tendre 
vers 0 à la frontière de D. 0 


Définition 14.6.2 On dit que D satisfait la condition de cône extérieur si, pour tout y € 
oD, il existe r > 0 et un cône de révolution ouvert C de sommet y tels que CO B(y, r) € D°. 


Théorème 14.6.6 Supposons que D est un domaine borné satisfaisant la condition de cône 
extérieur, et soit g une fonction continue sur OD. Alors la fonction 


h()=E.lg(Br), x € D 
est l’unique solution du problème de Dirichlet. 


Preuve. Compte-tenu du Théorème 14.6.3 et du Corollaire 14.6.5, il suffit de vérifier que, 
pour tout y € ØD fixé, 
lim A(x) = g(y). (14.7) 


a—y,xEeD 


Soit € > 0. Grâce à la continuité de g, on peut choisir ô > 0 tel que, si z € D et |z— y| < ô, 
on à 


(2) al < $ 


Soit ensuite M > 0 tel que |g(z)| < M pour tout z € D. On a alors, pour tout n > 0, 


Er[9(Br)] — g(y) E[19(Br) — g(y)L{rem) + Exl|9(Br) — gly) Lir>n] 
E,[l9(Br) — gly)|LiTr<n} L{supee, 1Br-x1<6/2}l 























IA 




















IA 


5 
+2MP, (sup IB xl > =) +2M P,(T >n) 


t<n 


I+II +III. 


Nous allons majorer séparément les trois termes 7, I, JI. 
Si |z — y| < À, on a sur l'événement {T < n} N {suprcn | Bt — x| < 0/2} 


|Br — y| < |Br = z| + |z — y| < ô 


et le choix de ô assure que le terme T est majoré par £€/3. 
En utilisant l’invariance par translation, on a 


ô 
ire 2MPo( sup AE -) 
t<n 2 


et donc le terme JI ne dépend pas de x. Clairement 71 tend vers 0 quand ņ tend vers 0 
(c’est juste dire que sup,e, |B:| — 0 en probabilité sous Po, ce qui est vrai puisqu'il y a 
convergence p.s. par continuité). On peut donc choisir n > 0 assez petit de manière que 
IT < €/3. 

Comme € a été choisi de manière arbitraire, il reste pour établir (14.7) à montrer qu’on 
peut choisir œ €]0, 8/2] suffisamment petit de manière que si [x — y| < a, le terme III = 
2M P(T > n) est aussi majoré par £/3. Or cela est une conséquence du lemme suivant, qui 
complète donc la preuve du théorème. 
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Lemme 14.6.7 Sous la condition de cône extérieur, on a pour tout y € OD et tout n > 0, 


sie P(T >n) =0. 
Remarque. Comme cela a été suggéré après la preuve du Théorème 14.6.3, le point-clé dans 
la vérification de la condition frontière (14.7) est de s'assurer que le mouvement brownien 
partant près de la frontière de D va sortir de D rapidement, avec une grande probabilité. 
C’est précisément ce que nous dit le lemme. La condition de cône extérieur n’est pas la 
meilleure possible pour cela, mais elle donne déjà des applications intéressantes, comme 
nous le verrons plus loin. 

Preuve. Commençons par réécrire la condition de cône extérieur en y € OD. Pour u € 9%! 
et y > 0, notons 





C(u, y) = {z ER}: z- u> (1-y)lz|} 
le cône de révolution ouvert de sommet 0, de direction u et d'ouverture y. Alors on peut 
choisir r > 0, u € ST! et y > 0 tels que 


y + (C(u, y) O B(0,r)) € D°. 


Pour alléger l'écriture on note C = C(u, y) N B(0,r). Posons aussi 





2 
qui correspond à l'intersection avec B(0, $) d’un cône “un peu plus petit” que C{u,r). 
Il découle facilement de la loi du tout ou rien (Théorème 14.4.2) que, si Te = inf{t > 0: 
Bc C}, ona 


Č = {z E€ R°: z- u> (1- Dle} BO, T) 


Ti =0, Po p.s.. 


En effet, si (en) est une suite décroissant strictement vers 0, l'événement limsup{B., € C} 
est dans la tribu Fo+, et un argument analogue à la preuve du Corollaire 14.4.3 montre que 
cet événement est de probabilité strictement positive. 
Pour a €]0, r/2[, notons 
C, = ČN B(0,a)®. 


Puisque les ensembles C, croissent vers C quand a | 0, on a Tg, | Te = 0, Po p.s., et donc 
pour tout 6 > 0 on peut fixer a assez petit tel que 


Ps <n)>1-— 4. 
En utilisant le fait que y + C C D°, on a, avec des notations évidentes, 
PT < n) > Pa(Ty+c < n) = Po(Ty-x+0 < n). 
Or un raisonnement géométrique simple (faire un dessin!) montre que, dès que |y — x| est 
assez petit, le cône translaté y — x + C contient Ca, et alors 
P,(T < n) > Po(Ts, <n) > 1- £ 
d’après le choix de a. Comme f était arbitraire on a terminé la preuve du lemme. 0 


Nous en venons maintenant à une autre caractérisation analytique des fonctions har- 
moniques, qui est souvent prise comme définition. 
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Proposition 14.6.8 Soit h une fonction localement bornée sur le domaine D. Alors h est 
harmonique sur D si et seulement si h est de classe C? sur D et Ah = 0. 


Preuve. On suppose d’abord que h est harmonique. La Proposition 14.6.4 montre que h 
est de classe C% sur D. Soit x € D et soit ro > 0 tel que la boule B(x, ro) soit contenue 
dans D. Toujours d’après la Proposition 14.6.4, on a pour tout r €]0, ro], 








1 
Mo) = pry h(y) dy. 14.8 
UAE e g 
D’autre part la formule de Taylor à l’ordre deux montre que, pour y € B(x,r), 
d d 
Oh 1 oh J 
h(y) = h(x) + 2, a VERR Da (0) OEE 


où le reste o(r?) est uniforme quand y décrit B(x,r). En intégrant cette égalité sur B(x,r), 
et en utilisant les symétries évidentes, on trouve 


- 2 d+2 
Ta h(y) dy = Aa(B(x,r)) h(x) + 5 2. EAU AC — x;) dy + o(r™°). 


Posons Ci = f B(0,1) y}dy > 0. L'égalité précédente et (14.8) conduisent à 


> Ah(z) r? + ofr) = 0 


ce qui n’est possible que si Ah(x) = 0. 

Inversement supposons h de classe C? sur D et Ah = 0. Il suffit alors de montrer que 
si U est une boule ouverte telle que Ü C D, h est harmonique sur U. D’après le Théorème 
14.6.6, il existe une (unique) fonction h continue sur Ü, harmonique dans U, et telle que 
h(x) = h(x) pour tout x € OU. De plus, la première partie de la preuve montre que Ah = 0 
sur U. En appliquant le lemme suivant aux deux fonctions h — heth—h (définies sur U) 





on trouve que h = h sur U, ce qui termine la preuve de la proposition. 0 





Lemme 14.6.9 (Principe du maximum) Soit V un ouvert borné de RI, et soit u une 
fonction continue sur V, de classe C? dans V et telle que Au > 0 sur V. Alors, 

sup u(x) = sup u(x). 

xeV xEOV 
Preuve. Supposons d’abord qu’on a la propriété plus forte Au > 0 sur D. On raisonne par 
l’absurde en supposant 

sup u(x) > sup u(x). 

xeV xEOV 
Dans ce cas on peut trouver £o € V tel que 


u(xo) = sup u(x). 
xeV 
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On a alors 3 
u 
a = j IN 
dy (to) 0, Vj € { ; .d} 


et de plus la formule de Taylor à l’ordre deux assure que la matrice symétrique 


ou 
M [= ) 
° \3y;ðy; (ro) LjE{1,..d} 


est négative, au sens où la forme quadratique associée ne prend que des valeurs négatives ou 
nulle. En particulier les valeurs propres de M,, sont toutes négatives ou nulles et la trace 
de M,, l’est aussi. Mais ceci est une contradiction puisque la trace de My, est Au(xo) > 0. 
Si on fait l’ hypothèse plus faible Au > 0 sur D, il suffit de poser pour tout € > 0, et tout 
rev 
u.(x) = u(x) + ex, 


de sorte que Au, = Au + 2€ > 0. La première partie de la preuve assure que 


sup ue(x) = sup ü.(x), 
xeV xeOV 


et il ne reste plus qu’à faire tendre € vers 0. 0 


14.7 Fonctions harmoniques et mouvement brownien 


Nous commençons par un résultat important qui fait le lien entre fonctions harmoniques, 
mouvement brownien et martingales. Nous devons d’abord introduire la notion de martingale 
à temps continu, qui est une généralisation directe des martingales à temps discret étudiées 
dans le Chapitre 12. Rappelons que nous nous sommes placés sur l’espace canonique du 
mouvement brownien, décrit à la fin de la partie 3, et que F, désigne sur cet espace la 
tribu engendrée par (B,,s < t). Une famille (W,):0, indexée par les réels positifs, de v.a. 
intégrables est une martingale si M, est F,-mesurable, pour tout t > 0, et si la relation 
E[M,|F.] = M, est vraie pour tous 0 < s < t. 
Si U est un ouvert de R, on note Hy = inf{t > 0 : B; ¢ U}. 











Théorème 14.7.1 Soit D un domaine de RË. Une fonction continue h : D — R est 
harmonique si et seulement si pour tout ouvert borné U tel que U C D et U satisfait la 
condition de cône extérieur, le processus 


(A(Binay))e>0 
est une martingale sous P,, pour tout x € U. 


De manière informelle les fonctions harmoniques sont celles qui composées avec le mou- 
vement brownien donnent des martingales. La condition de cône extérieur dans l’énoncé qui 
précède est superflue mais intervient pour des raisons techniques dans notre démonstration. 
Preuve. Supposons d’abord que A est harmonique, et soit U un ouvert satisfaisant les 
conditions de l’énoncé. On note H = Hy pour alléger, et on fixe x € U. Remarquons que les 
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v.a. h(Byu) sont bornées P, p.s. par sup{}h(y)| : y € U} < 00. Soient s < t. Observons que 
la va. Ban est F\n-mesurable donc aussi F,-mesurable. Pour obtenir légalité recherchée 
Elh(Bra) | F] = k(Bsan), il suffit de montrer que, pour toute v.a. F F,-mesurable bornée, 
on à 


Es [F A(Boan)] = EalF (Bean). 


Or on peut interpréter h comme la solution (unique) du problème de Dirichlet dans U dont 
la condition frontière est simplement la restriction de h à OU. Le Théorème 14.6.6 montre 
que, pour tout y € U, 











h(y) = E,lh(Ba)]. 





Il en découle que 
EF 1gser}h(Bann)] F E, [F Lis<a}h(Bs)] E E, [F l{s<H} Ep, [h(Br)]]. 


Mais puisque Fc est F.-mesurable (exercice), la propriété de Markov (sous la forme 
du Théorème 14.5.4, avec le temps d’arrêt constant s) montre que 






































Es |E lis<H} Eg [h(By)]] = Ep |E l{<a}h(By)]. 


On obtient ainsi 


















































EF h(Bsnn)] = Ea [F Lucmh(B)] + Ea[F Lu>ayh(Bn)] = EF h(Bn)]. 


Evidemment le même argument montre que 






































Eo[F R(Biau)] = Es[F h(Bx)] = EelF h(Bsnn)] 


ce qui était légalité recherchée. 

Dans l’autre sens, c’est plus simple. Si on suppose que À vérifie la propriété de l’énoncé, 
on prend pour U une boule ouverte dont l’adhérence est contenue dans D. La propriété de 
martingale permet d'écrire si x € U 


h(x) = Es[k(Bian) | Pol = Exlk(Brnn)]. 


























En faisant tendre t vers co, on a h(x) = E;[h(Bx)], et le Théorème 14.6.3 montre que h est 
harmonique sur U ce qui suffit pour conclure. 

A partir de maintenant, on suppose que d > 2 (remarquer qu’en dimension un les fonc- 
tions harmoniques sont les fonctions affines). 














Proposition 14.7.2 Soient 0 < a < b et soit Dap le domaine 


Da» = B(0,b)\B(0, a). 





Soit f : Dap — R une fonction radiale, au sens où f(x) ne dépend que de |x|. Alors f est 
harmonique si et seulement s'il existe deux constantes C, C" € R telles que 


fe) = { C + C' log |z| si d = 2, 








C + C' |z|? si d > 3. 
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Preuve. Nous savons déjà que f doit être de classe C®. Soit g :]a, b|[—— R la fonction telle 
que f(x) = g(|x|). L'expression du Laplacien pour une fonction radiale montre que 


Afle) = gel) + 2 gl). 


æl 


D’après la Proposition 14.6.8, f est harmonique si et seulement si g satisfait l'équation 


différentielle izi 
g'e) + = g'{r) =0 
qu’il suffit de résoudre pour obtenir la proposition. 0 





Dans les deux énoncés suivants on note T4 = inf{t > 0 : B; € A} pour tout fermé A de 
R3. 








Proposition 14.7.3 Soit x € R‘\{0}, et soient e, R > 0 avec e < |x| < R. Alors, 


log R—log |z| C 
log R—log € si d = 2, 


|z|? 72—R?-4 R 
zda R?d St d > 3. 


Pa(Ttwe) < LB(0,R>x) = (14.9) 


Remarque. L’énoncé analogue en dimension un est, pour a < x < b, 


b—x 
b—a 





PURES) 


et se démontre exactement de la même manière (exercice). 
Preuve. Considérons le domaine D = D. r, qui vérifie la condition de cône extérieur, et 
soit g la fonction continue sur D définie par 


Alors le Théorème 14.6.6 montre que 
h(x) = P} (TBs) < TB(0,R)e) , E< |z|< R 


est la solution unique du problème de Dirichlet avec condition frontière g. Mais en utilisant 
la Proposition 14.7.2, on voit immédiatement que le terme de droite dans (14.9) est solution 
du même problème de Dirichlet. Cela donne l'égalité recherchée. 0 

On peut déduire de la proposition précédente des informations intéressantes sur le com- 
portement presque sûr des fonctions t — B4. 





Corollaire 14.7.4 (i) Si d > 3, pour tous £ > 0 et x € R? tels que e < |z], 





Engi 
P(T(0e) < ©) = Gr i 
De plus, pour tout x € R$, 
Jim |B] =, Py p.s. 
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(ï) Si d = 2, pour tous € > 0 et x € RÌ tels que € < |z], 
Pa (TB(0,e) < co) = ] 


mais 
P;(T{o} < co) = (. 


De plus, P, p.s., pour tout ouvert U de R?, l’ensemble {t > 0 : Bi E€ U} est non borné. 





Par analogie avec le cas des chaînes de Markov, on dit que le mouvement brownien est 
transitoire en dimension d > 3 et récurrent en dimension d = 2. Noter que cette propriété 
de récurrence dans le plan n’entraîne pas que tous les points soient visités : au contraire un 
point fixé, autre que le point de départ, n’est pas visité avec probabilité 1. 


Preuve. (i) La première assertion est facile puisque 


P, (Tho) < ©) = in P. (TB) < TBone) 


et il suffit d'appliquer la formule (14.9). 
Ensuite, on pose pour tout entier n > 1 


Tin) = T'B(0,2”)° 3 


En appliquant la propriété de Markov forte en Tin) et en utilisant à nouveau la formule 
(14.9), on trouve, si |z| < 2”, 














: Cr | PAET 7. 
Pe( inf |B] < n) = Ee [Por (Taon < 00)] = Gt? 
Le lemme de Borel-Cantelli entraîne alors que P, p.s., pour tout entier n assez grand, 
inf |B;| >n 
t2T(n) 
et donc la fonction t — |B;| converge vers oo quand t — co. 
(ii) D’après la formule (14.9) on a 


log R — log |z| 
Pelno < TOR) = TER ose 


dès que € < |z| < R. En faisant tendre R vers œo dans cette formule on trouve 
P, (Tho) < ©) = 1. 
En faisant tendre £ vers 0 dans la même formule on obtient 
P:(Ttoy < TB(o,ry) = 0. 
Comme Tg(o,rje T © quand R T co, cela entraîne 
P;(Ttoy < œ) = 0. 
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On a donc à la fois 
EP- p.-s. Ve > 0, TB(0,e) < O0 


et 
P, p.s. 0 ¢€{B,:t>0}. 


Ces deux propriétés entraînent que P} p.s. 0 est un point d’accumulation de la fonction 
t — B, quand t — œ. Donc, pour tout ouvert U contenant 0, l’ensemble {t > 0 : B, EU} 
est P, p.s. non borné. Un argument de translation donne alors la dernière propriété du 
corollaire, en remarquant aussi qu’on peut se limiter à une famillle dénombrable de choix de 
U. 


Noyau de Poisson. Rappelons que nous nous plaçons en dimension d > 2. Le noyau de 
Poisson (de la boule unité) est la fonction définie sur B(0,1) x S% ! par 














x € B(0,1), y € S™!. 





Lemme 14.7.5 Pour tout y € SŸ1 fizé, la fonction x — K(x,y) est harmonique sur 
B(0,1). 


Preuve. Posons K (x) = K(x,y) pour x € B(0,1). Un calcul direct montre que AK, = 0 
sur B(0,1), et il suffit d'appliquer la Proposition 14.6.8. oO 


Lemme 14.7.6 Pour tout x € B(0,1), 


K(x, y) Ta(dy) = 1. 
gd-1 


Preuve. Pour tout x € B(0,1), posons 


F(x) = K(x, y) oa(dy). 
g4-1 
Alors, on déduit facilement du lemme précédent que F est harmonique sur B(0,1) : on 
peut appliquer le théorème de Fubini pour vérifier que F satisfait la propriété de moyenne 
(ou dériver sous le signe intégrale pour montrer que AF = 0). Par ailleurs, en utilisant les 
propriétés d’invariance de gą et de K par les isométries vectorielles, on obtient que F est 
une fonction radiale. Sur la boule ouverte privée de l'origine B(0,1) W0}, F doit donc être 
de la forme donnée dans la Proposition 14.7.2. Mais puisque F est aussi continue en 0, la 
constante C” intervenant dans les formules de cette proposition doit être nulle. On a donc, 
pour tout x € B(0,1), F(x) = F(0) = 1. O 
Théorème 14.7.7 Soit g une fonction continue sur ST1. La solution du problème de 
Dirichlet dans B(0,1) avec condition frontière g est donnée par 
h(z) = |} K(2,y) gly) aldy) , x € B(0,1). 

Ta 

De plus, pour tout x € B(0,1) fixé, la fonction y — K(x, y) est la densité par rapport à la 


mesure o4a(dy) de la loi sous P, du point de sortie du mouvement brownien hors de B(0, 1). 
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Preuve. Les mêmes arguments que dans la preuve du Lemme 14.7.6 montrent que h est 
harmonique dans B(0,1). Pour vérifier la condition frontière, fixons yọ € S%!. Pour tout 
ô > 0, la forme explicite du noyau de Poisson montre que si x € B(0,1) et y € ST sont 
tels que |x — yo] < 0/2 et ly — yo| > ô on a 


Kay) < QC - HP) 


Il découle de cette majoration que, pour tout ô > 0, 


lim | K(x, y) o(dy) = 0. (14.10) 
{ly—vol>5} 


xæ—yo,tEB(0,1) 


Ensuite, si € > 0 est donné, on choisit ô > 0 assez petit pour que |g(y) — g(yo)| < £ dès que 
y € SL et |y — yo) < 6. Si M = sup{|g(y)l : y € SŸ 1}, il vient 


h(x) — glv] = K(x, y) (gly) — g(yo)) ca(dy) 


| Sd-1 


< 2M f KE olh)æe 
{ly—yo|>8} 


en utilisant le Lemme 14.7.6 pour la première égalité, et ensuite le choix de 0. Grâce à 
(14.10), on obtient maintenant 


limsup  Jh(x) — g(yo)| < €. 
xz—yo,xEB(0,1) 


Comme € était arbitraire, cela donne bien la condition frontière voulue. 
Enfin, pour la dernière assertion, on utilise le Théorème 14.6.6 qui affirme que la solution 
du même problème de Dirichlet est aussi donnée par 


h(x) = Ez[g(Br)], 


où T = inf{t > 0: Bı € D}. En comparant les deux formules pour h on obtient précisément 
que la loi de Br est la mesure K(x, y)oa(dy). 
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